代码之家 › 专栏 › 技术社区 › Cerin

基于搜索引擎的Web挖掘

data-mining web-crawler machine-learning

Cerin · 技术社区 · 14 年前

当我意识到这是多么不必要的重复和低效时,我正在通过谷歌地图(Google Maps)购买公寓,将各种清单复制到电子表格中,这样我就可以更容易地进行比较和附加注释。我可以很容易地编写一个脚本来自动查询Google并提取我需要的数据,但是要获得一些数据(例如,联系电话号码)需要我跟踪到一个列表特定站点的链接并四处搜索数据,而且我从来没有编写过这样动态的web爬虫程序。对于给定任意HTML的信息,常用的数据挖掘和/或机器学习技术和工具是什么?

2 回复 | 直到 14 年前

aartist 14 年前

这不是后端技术,但如评论中所述是有帮助的。去吧 http://www.google.com/squared 然后将结果导出为Google电子表格或csv数据。它为您命名字段并从web填充数据。

Neil McGuigan 14 年前

这叫做信息提取。

这段视频不错。这家伙来自谷歌:

http://videolectures.net/mlas06_nigam_tie/

推荐文章

chans.best · StormCrawler和Hortonworks 1.1.0.2.6.4.0-91之间的Commons日志版本冲突

7 年前

Tae · Python3中方法has\u key的替换

7 年前

Jonas Pohlmann · Stormcrawler没有为elasticsearch获取/索引页面

7 年前

Teslaturing · 在python中从结果中获取指定单词后的动态数字并存储在数据库中

7 年前

Vega · 如何从DOM获取所有链接?

7 年前

Vivek Kumar Sinha · 产生刮痕。请求()无法正常工作以爬网下一页

7 年前

bob9123 · 为什么状态和索引中的文档计数不同?

7 年前

Konstantin · crawler中未启动回调函数,scrapy

7 年前

SY9 · 刮:已爬网并刮取0个项目

7 年前

Vani4ka · Crawler4j、Jsoup和JavaScript:提取用JavaScript修改的属性值

7 年前