代码之家  ›  专栏  ›  技术社区  ›  Entretoize

用GOOGLE搜索html源代码?

  •  50
  • Entretoize  · 技术社区  · 14 年前

    我有几个网站,我不记得在哪里写了几行代码。由于我的页面是由Google索引的,我想知道Google是否提供了一个工具,可以在HTML源代码/标记本身中进行搜索, 而不是 只允许在页面的可视、呈现部分进行搜索?

    谢谢

    5 回复  |  直到 10 年前
        1
  •  40
  •   d-_-b    11 年前

    有一个新的搜索引擎叫做 NerdyData

    他们索引了超过1.6亿个公共域,我发现这些数据很有用。

        2
  •  33
  •   Dave Powers    4 年前

    我在旅行中遇到了以下资源(上面已经提到了一些):

    以HTML标记为中心的搜索引擎

    我还想介绍一下:

    庞大的网站数据档案

    我们如何分析这些爬网数据?

    对于如何开始分析这些海量数据的想法,请看 Big Data/Map-reduce-type frameworks(s) .

    Google lists some ideas on using Apache's Spark project Common Crawl's dump(s) . 理解 the file format(s) used by Common Crawl

    这篇文章, Accessing-Common-Crawl-Dataset-on-S3 ,大纲访问 Common Crawl's 250TB+ dump(s) 以低成本的方式 没有 将数据负载转移到Amazon的AWS/S3网络之外。当然,假设你 要用一些组合词吗 AWS/EC2/S3

    最后, Patrick Durusau 保持 some interesting Common-Crawl-usage-related blog pages .

    就我个人而言,我觉得这个话题很有趣,我建议我们 趁热获取爬网数据! ;-)

        3
  •  10
  •   James Andreenko    9 年前

    你可以试试 PublicWWW 用于在源/标记中搜索。它允许在1.67亿多个网站的网页源代码中找到任何HTML、JavaScript、CSS和纯文本。

    使用PublicWWW,您可以:

    • 小部件和发布者ID。

    • 找出还有谁在使用你的主题。
    • 确定提到你的网站。
    • 找到竞争对手的附属公司。
    • 确定您的竞争对手个人协作或互动的网站。
    • 在网上查找代码示例。
    • 找出谁在他们的网站上使用什么JS小部件。
    • ...

        4
  •  2
  •   Limon Pervez    10 年前

    谷歌无法从中搜索你的代码站点。同比可以使用 http://nerdydata.com/ 我想你会从这个网站上得到你的准确代码。