代码之家  ›  专栏  ›  技术社区  ›  Ben S

为可能的维基百科链接解析文本的工具

  •  1
  • Ben S  · 技术社区  · 16 年前

    有没有一个工具可以解析文本并输出文本,超链接到维基百科的相关词条?

    例如,我想要一个可以转动的工具,比如:

    最流行的搜索算法 排序列表是二进制搜索。

    进入:

    最受欢迎的 search algorithm 在一 sorted list binary search .

    如果维基百科有一个能做到这一点的API,那就太好了,因为它们最有能力确定“感兴趣的词”是什么。

    在我的示例中,我简单地将所有直接链接到一个条目的组合链接起来,除了和大多数。

    3 回复  |  直到 16 年前
        1
  •  1
  •   user113017    16 年前

    有一个工具可以完全满足你的要求。 http://wikify.appointment.at/ 这不是完美的,但很有效。

        2
  •  1
  •   Eli Bendersky    16 年前

    这里有两个单独的问题要解决:

    1. 决定应该链接哪些单词
    2. 确定是否有合适的条目将这些单词链接到

    现在,(2)更简单了,尽管它也有一些问题。维基百科似乎有 an API 这使您能够有效地收集数据,而且它们还允许“屏幕抓取”。但是消除歧义有一个问题-有时你可能会点击你不想要的条目。例如, python 链接到消歧页面,因为它可以是编程语言、蛇和其他一些东西。

    (1)更难。您可以使用“简单方法”并尝试查找所有非平凡名词(甚至名词/形容词对)的链接。这里不平凡的意思是省略诸如“恶魔、文字、计算机”等词。 但这将导致大量链接,这不方便阅读。这真的取决于你决定什么是有趣的文本,这很大程度上取决于文本本身。在一篇针对专业程序员的文章中,您真的想每次都链接到“搜索算法”吗?但对于初学者来说,也许你会。

    最后,我强烈怀疑是否有一个通用工具可以为您提供这种技巧。但是你确实拥有所有的选择,并且一些需要特定的东西可以不用太多的努力就可以被编码。

        3
  •  1
  •   Matt G    16 年前

    微软研究院的SilviuCucerzan解决了这个问题。好吧,这不是插入链接的问题,而是确定在某段文本中所提到的实体的一般问题。幸运的是,他使用维基百科的文章作为他的一组实体。他的论文“基于维基百科数据的大规模命名实体消除歧义”,可在他的 website . 直接链接: pdf .