代码之家 › 专栏 › 技术社区 › luvieere

有没有可以用来搜索深层网络的开源库?[关闭]

deep-web open-source

luvieere · 技术社区 · 15 年前

是否有可用于搜索 Deep Web 是吗?

2 回复 | 直到 15 年前

Nasser Hadjloo 15 年前

有一个用于元数据收集的开放式归档主动协议,它使用XML over HTML。您可以在以下位置找到它: http://www.openarchives.org/Register/BrowseSites

深网(又称深网、看不见网、暗网或隐藏网)是指不属于表面网的万维网内容,由标准搜索引擎编制索引。

商业搜索引擎已经开始探索其他方法来搜索深层网络。Sitemap协议(最初由Google开发)和mod OAI是允许搜索引擎和其他相关方在特定Web服务器上发现深层Web资源的机制。这两种机制都允许Web服务器公布可访问的URL,从而允许自动发现没有直接链接到表面Web的资源。谷歌的深度网页呈现系统预先计算每个HTML表单的提交,并将生成的HTML页面添加到谷歌搜索引擎索引中。浮出的结果占每秒对深层网络内容进行1000次查询的比例。在该系统中,提交的预计算使用三种算法完成:

(1)为接受关键字的文本搜索输入选择输入值,

(2)识别只接受特定类型(如日期)值的输入,以及

(3)选择少量的输入组合,生成适合包含在Web搜索索引中的URL。

Justin Ethier 15 年前

如果谷歌不能索引这些页面中的任何一个,是什么让你认为一个开源库能够做到这一点?:)

也就是说,你的文章中有一些关于爬行深网的链接,这可能是开始调查的好地方。以下是一些其他的:

Deep Web Research 有很多有用的参考资料。
deepwebtech.com 声称有一个深层次的网络搜索引擎,虽然它目前已经关闭。

推荐文章

Nova · 如何将Windows上的PCSXR源代码编译为可执行文件?

7 年前

Antonio D'Angelo · 服务器监控-Pulseway的开源替代方案

7 年前

balaji · Dialogflow bot框架与Rasa nlu bot框架之间的区别是什么?

7 年前

pri · 为什么数字在HashMap中硬编码为1<4。java类[重复]

7 年前

ERJAN · 在将某人在github中的整个项目转移到本地驱动器后,如何将其回滚到初始状态?

7 年前

Mike Kovetsky · 角度2+源代码中的(类θ)符号

7 年前

Ryuu · 我可以在我的商业产品中包括微软的调试器工具吗?

7 年前

Christin Abel · 用python中其他图像的值替换光栅图像中的区域

8 年前

rwnext · 正在寻找基于Microsoft.NET的开源Intranet解决方案[已关闭]

9 年前

Hemen Ashodia · 在哪里可以详细了解mysql服务器的代码库?[已关闭]

9 年前