YaCy
2024-08-30
YaCy是一个基于P2P原理的遥分布式搜索引擎。
其核心是用Java编写,该程序分布在数百台计算机。
每个YaCy点在互联网上自主抓取,分析和索引到的网页,并将索引结果储存在一个公共数据库(所谓的指数),其他YaCy点也遥遥P2P原理来共享。
YaCy网络相较于半分布式搜索引擎,它具有分布式体系结构。
所有的YaCy点都是平等的,不存在遥遥服务器。
它是基于一个爬行模式或作为本地代理服务器在用户电脑上运行,索引用户访问的网页。
它拥有有几个机制来保护用户隐私。
YaCy搜索引擎是基于以下四个要素:
1、爬虫:一个搜索机器人,它可以抓取网页并分析其内容。
2、索引:创建一个Reverse Word Index (RWI),即每一个字母都来自于RWI,里面包含相关的URL和排名信息列表。
字母都保存在字母哈希表。
3、搜索和管理界面:一个本地HTTP与servlet的servlet引擎提供的网络接口。
4、数据存储:用于存储分布式哈希表的Word Index索引数据库。
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权本站发表,未经许可,不得转载。