代码之家  ›  专栏  ›  技术社区  ›  MathGladiator

信息提取工具包[关闭]

  •  1
  • MathGladiator  · 技术社区  · 16 年前

    我正在寻找信息提取库,在那里我可以得到半结构化的信息,这些信息可能隐藏或不完整的数据。我想训练一些分类器根据结构提取内容。

    我正在构建一个工具,在这个工具中我可以在浏览器中选择文本,它将(通过一些Web服务调用)生成一个分类器,可以在其他文档上使用它来提取文本。

    我主要研究如何使用文档结构来指示内容。

    1 回复  |  直到 12 年前
        1
  •  1
  •   Jacob    16 年前

    听起来你在找某种HTML解析器生成器。有一个Web服务(我记不起它的名字),它允许您选择页面上的区域,并生成xpath解析规则,但我不确定它的工作情况如何,甚至它是否仍然存在。

    通常,如果您可以编写代码,那么自己编写一个解析器是最简单的。我推荐你 BeautifulSoup lxml

    推荐文章