![]() |
2
33
我在旅行中遇到了以下资源(上面已经提到了一些): 以HTML标记为中心的搜索引擎 我还想介绍一下: 庞大的网站数据档案 我们如何分析这些爬网数据? 对于如何开始分析这些海量数据的想法,请看 Big Data/Map-reduce-type frameworks(s) . Google lists some ideas on using Apache's Spark project Common Crawl's dump(s) . 理解 the file format(s) used by Common Crawl
这篇文章, Accessing-Common-Crawl-Dataset-on-S3 ,大纲访问 Common Crawl's 250TB+ dump(s) 以低成本的方式 没有 将数据负载转移到Amazon的AWS/S3网络之外。当然,假设你 是 要用一些组合词吗 AWS/EC2/S3 最后, Patrick Durusau 保持 some interesting Common-Crawl-usage-related blog pages . 就我个人而言,我觉得这个话题很有趣,我建议我们 趁热获取爬网数据! ;-) |
|
3
10
你可以试试 PublicWWW 用于在源/标记中搜索。它允许在1.67亿多个网站的网页源代码中找到任何HTML、JavaScript、CSS和纯文本。 使用PublicWWW,您可以:
|
|
4
2
谷歌无法从中搜索你的代码站点。同比可以使用 http://nerdydata.com/ 我想你会从这个网站上得到你的准确代码。 |
|
callum · 如何识别数组中与给定序列不匹配的元素? 1 年前 |
![]() |
Sab · 输入为空时,搜索结果元素未隐藏 3 年前 |
![]() |
Chaz Cosby · 如何添加更改api地址的搜索栏? 3 年前 |
![]() |
user3669555 · 多维数组搜索部分单词或短语并移除键 6 年前 |
![]() |
Yohan · 根据用户输入显示或隐藏div 6 年前 |
|
Shasocais · Prolog,基本情况失败的问题 6 年前 |
|
Den · C#在列表框中搜索项目1 6 年前 |
![]() |
Eugene Barsky · Perl 6中多针的索引 6 年前 |