代码之家  ›  专栏  ›  技术社区  ›  Cerin

基于搜索引擎的Web挖掘

  •  1
  • Cerin  · 技术社区  · 14 年前

    当我意识到这是多么不必要的重复和低效时,我正在通过谷歌地图(Google Maps)购买公寓,将各种清单复制到电子表格中,这样我就可以更容易地进行比较和附加注释。我可以很容易地编写一个脚本来自动查询Google并提取我需要的数据,但是要获得一些数据(例如,联系电话号码)需要我跟踪到一个列表特定站点的链接并四处搜索数据,而且我从来没有编写过这样动态的web爬虫程序。对于给定任意HTML的信息,常用的数据挖掘和/或机器学习技术和工具是什么?

    2 回复  |  直到 14 年前
        1
  •  2
  •   aartist    14 年前

    这不是后端技术,但如评论中所述是有帮助的。去吧 http://www.google.com/squared 然后将结果导出为Google电子表格或csv数据。它为您命名字段并从web填充数据。

        2
  •  0
  •   Neil McGuigan    14 年前

    这叫做信息提取。

    这段视频不错。这家伙来自谷歌:

    http://videolectures.net/mlas06_nigam_tie/