![]() |
1
3
有一个用于元数据收集的开放式归档主动协议,它使用XML over HTML。您可以在以下位置找到它: http://www.openarchives.org/Register/BrowseSites 深网(又称深网、看不见网、暗网或隐藏网)是指不属于表面网的万维网内容,由标准搜索引擎编制索引。 商业搜索引擎已经开始探索其他方法来搜索深层网络。Sitemap协议(最初由Google开发)和mod OAI是允许搜索引擎和其他相关方在特定Web服务器上发现深层Web资源的机制。这两种机制都允许Web服务器公布可访问的URL,从而允许自动发现没有直接链接到表面Web的资源。谷歌的深度网页呈现系统预先计算每个HTML表单的提交,并将生成的HTML页面添加到谷歌搜索引擎索引中。浮出的结果占每秒对深层网络内容进行1000次查询的比例。在该系统中,提交的预计算使用三种算法完成: (1)为接受关键字的文本搜索输入选择输入值, (2)识别只接受特定类型(如日期)值的输入,以及 (3)选择少量的输入组合,生成适合包含在Web搜索索引中的URL。 |
![]() |
2
1
如果谷歌不能索引这些页面中的任何一个,是什么让你认为一个开源库能够做到这一点?:) 也就是说,你的文章中有一些关于爬行深网的链接,这可能是开始调查的好地方。以下是一些其他的:
|