代码之家  ›  专栏  ›  技术社区  ›  Kenan Banks

在大量内容中自动创建上下文链接的工具或方法?

  •  0
  • Kenan Banks  · 技术社区  · 16 年前

    我想做的是在文章中找到一些应该链接到其他文章的文本。

    因此,如果Foo文章有一系列文本,比如“8年级的学生正在被鼓励阅读John Paul Sartre的作品”,并且文章栏的标题是(以及关于“John Paul Sartre的重要作品”),我想在Foo的文本中自动创建从Foo到Bar的HTML链接。

    2 回复  |  直到 16 年前
        1
  •  2
  •   Muxecoid    16 年前

    在添加链接之前,你应该问问自己。您希望通过这样做为用户带来什么好处?你可能想增加网站的导航性。也许最好创建一种更简单的方法,以提交新文章的形式添加到旧文章的链接。也许可以添加一个“一键搜索选定文本”功能。也许你可以添加一个类似wiki的功能,让用户为选定的文本提议链接。您可能希望在文章下方添加指向相关文章(通过标记系统或文本挖掘生成)的链接。

    全自动链路加法器的一些潜在问题: 您可能需要实现一个好的词义消歧算法,以避免使用regex(或简单的子串匹配)放置错误的自动链接,从而避免混淆甚至激怒用户。

    由于文章的数量很大,您不希望为每个请求生成额外链接的html,而是缓存它。

        2
  •  1
  •   tvanfosson    16 年前

    你要找的是文本挖掘工具。更多信息和链接请访问 http://en.wikipedia.org/wiki/Text_mining . 你可能还想看看Lucene和它的端口 http://lucene.apache.org . 使用这些工具,基本思想是根据所讨论的文章(或标题)找到一组类似的文章。你可以搜索文章的各种属性,包括标题和内容,或者两者兼而有之。标签系统A la Delicious(或Stackoverflow)也可能有帮助。与预先创建文章之间的链接不同,您应该在一个界面中显示相关文章,就像本页右侧的Related questions界面一样。

    如果你想在每篇文章中找到并链接特定的文本,我想你需要做一些预处理来选择相关的短语。即便如此,我也认为很难不因标点符号/拼写错误而漏掉一些东西,或者因为同样的原因而不包括不相关的链接。