代码之家  ›  专栏  ›  技术社区  ›  martijn_himself

高效的自然语言数据结构、持久性和查询

  •  2
  • martijn_himself  · 技术社区  · 14 年前

    对于语言学习Web应用程序,您是否知道数据结构和基础数据库模式/布局,这些结构将允许对不同自然语言的句子、动词、名词等进行有效的存储、处理和查询?例如,我只想将每个动词存储一次,并将句子链接到动词对象等。

    我遇见 concrete syntax trees 我正在考虑使用抽象节点类,并从中派生名词类等等。语法树结构是否会限制太多?

    我意识到这是一个非常宽泛的问题,我不希望你做我的“家庭作业”,但如果你能给我指出你所知道的任何可以帮助我开始工作的资源,我会非常感激。

    谢谢你

    马蒂恩

    1 回复  |  直到 14 年前
        1
  •  2
  •   k.m    14 年前

    在自然语言/句子操作方面,您的示例看起来相当可靠。

    关于其他选项..对于文本搜索/存储,您可以查看 Patricia tree . 爪哇正在实施IT Google code .

    另外,您是否考虑使用现有的解决方案,例如 Hunspell , Lucene Sphinx ?