代码之家 › 专栏 › 技术社区 › Entretoize

用GOOGLE搜索html源代码?

keyword search-engine web-crawler search

Entretoize · 技术社区 · 14 年前

我有几个网站,我不记得在哪里写了几行代码。由于我的页面是由Google索引的,我想知道Google是否提供了一个工具,可以在HTML源代码/标记本身中进行搜索, 而不是 只允许在页面的可视、呈现部分进行搜索?

谢谢

5 回复 | 直到 10 年前

d-_-b 11 年前

有一个新的搜索引擎叫做 NerdyData

他们索引了超过1.6亿个公共域,我发现这些数据很有用。

Dave Powers 4 年前

我在旅行中遇到了以下资源(上面已经提到了一些):

以HTML标记为中心的搜索引擎

Nerdydata

我还想介绍一下:

庞大的网站数据档案

Common Crawl - 'years of free web page data to help change the world' (over 250TB+)

我们如何分析这些爬网数据?

对于如何开始分析这些海量数据的想法,请看 Big Data/Map-reduce-type frameworks(s) .

Google lists some ideas on using Apache's Spark project Common Crawl's dump(s) . 理解 the file format(s) used by Common Crawl

这篇文章, Accessing-Common-Crawl-Dataset-on-S3 ,大纲访问 Common Crawl's 250TB+ dump(s) 以低成本的方式没有将数据负载转移到Amazon的AWS/S3网络之外。当然,假设你是要用一些组合词吗 AWS/EC2/S3

最后, Patrick Durusau 保持 some interesting Common-Crawl-usage-related blog pages .

就我个人而言,我觉得这个话题很有趣,我建议我们 趁热获取爬网数据! ;-)

James Andreenko 9 年前

你可以试试 PublicWWW 用于在源/标记中搜索。它允许在1.67亿多个网站的网页源代码中找到任何HTML、JavaScript、CSS和纯文本。

使用PublicWWW,您可以:

小部件和发布者ID。
找出还有谁在使用你的主题。
确定提到你的网站。
找到竞争对手的附属公司。
确定您的竞争对手个人协作或互动的网站。
在网上查找代码示例。
找出谁在他们的网站上使用什么JS小部件。
...

Limon Pervez 10 年前

谷歌无法从中搜索你的代码站点。同比可以使用 http://nerdydata.com/ 我想你会从这个网站上得到你的准确代码。

推荐文章

callum · 如何识别数组中与给定序列不匹配的元素?

1 年前

Sab · 输入为空时,搜索结果元素未隐藏

3 年前

Chaz Cosby · 如何添加更改api地址的搜索栏?

3 年前

user9420246 · 如何用java或python从网页中获取数据

6 年前

user3669555 · 多维数组搜索部分单词或短语并移除键

6 年前

Yohan · 根据用户输入显示或隐藏div

6 年前

Shasocais · Prolog,基本情况失败的问题

6 年前

Den · C#在列表框中搜索项目1

6 年前

Josh · 如何循环遍历foreach直到找到X,如果找不到,则查找Y

6 年前

Eugene Barsky · Perl 6中多针的索引

6 年前