代码之家  ›  专栏  ›  技术社区  ›  luvieere

有没有可以用来搜索深层网络的开源库?[关闭]

  •  5
  • luvieere  · 技术社区  · 15 年前

    是否有可用于搜索 Deep Web 是吗?

    2 回复  |  直到 15 年前
        1
  •  3
  •   Nasser Hadjloo    15 年前

    有一个用于元数据收集的开放式归档主动协议,它使用XML over HTML。您可以在以下位置找到它: http://www.openarchives.org/Register/BrowseSites

    深网(又称深网、看不见网、暗网或隐藏网)是指不属于表面网的万维网内容,由标准搜索引擎编制索引。

    商业搜索引擎已经开始探索其他方法来搜索深层网络。Sitemap协议(最初由Google开发)和mod OAI是允许搜索引擎和其他相关方在特定Web服务器上发现深层Web资源的机制。这两种机制都允许Web服务器公布可访问的URL,从而允许自动发现没有直接链接到表面Web的资源。谷歌的深度网页呈现系统预先计算每个HTML表单的提交,并将生成的HTML页面添加到谷歌搜索引擎索引中。浮出的结果占每秒对深层网络内容进行1000次查询的比例。在该系统中,提交的预计算使用三种算法完成:

    (1)为接受关键字的文本搜索输入选择输入值,

    (2)识别只接受特定类型(如日期)值的输入,以及

    (3)选择少量的输入组合,生成适合包含在Web搜索索引中的URL。

        2
  •  1
  •   Justin Ethier    15 年前

    如果谷歌不能索引这些页面中的任何一个,是什么让你认为一个开源库能够做到这一点?:)

    也就是说,你的文章中有一些关于爬行深网的链接,这可能是开始调查的好地方。以下是一些其他的: