代码之家  ›  专栏  ›  技术社区  ›  boddhisattva

自然语言处理词汇对齐

  •  7
  • boddhisattva  · 技术社区  · 15 年前

    我正在寻找单词对齐工具和算法。
    我正在处理双语英语-印地语文本,目前正在努力

    你能推荐其他独立于语言的算法/工具吗? 平行英语印地语语料库的统计对齐及其评价 .
    对于某些语言,有些工具是最好的;你能告诉我这是多么的正确吗?如果是这样,你能举一个例子,说明哪些工具更适合印地语这样的亚洲语言吗?对于这种语言,我不应该使用的反例也很受欢迎。

    我听说过一些 Uplug word aligner …有人能告诉我这个工具对我有用吗?

    谢谢您。。:)

    4 回复  |  直到 12 年前
        1
  •  5
  •   dmcer    15 年前

    这个 Berkeley Aligner 很好。通过对IBMWordAlignment模型进行联合培训,它能够获得比Giza++等旧软件包更低的对齐错误率(AER)。

    它还支持一些更高级的特性,例如语法失真(即使用解析树信息来获得更好的对齐)。为此,您只需要为其中一个语言对解析树。因此,您应该可以使用印地语-英语,因为这里有很多免费的和良好的英语解析器。

    如果你决定不使用伯克利校准器,你应该只使用giza++。多年来,基本上 标准 机器翻译社区中的单词对齐器。

        2
  •  2
  •   msaveski    15 年前

    uplug是一个很好的工具,我一直在使用它来调整英语和马其顿语的文本。 它通过添加所谓的线索对齐,基本上建立在Giza++之上。它的高级设置实际上结合了线索对齐和giza++并执行了3次这样的迭代。更多线索(位置标签,引理…)你提供的结果会更好。但是我必须提到的是,你不应该期望仅仅通过使用giza++就得到根本不同的结果。

    不管怎样,如果你打算认真研究SMT的主题,我建议你读一下关于UPLUG的论文(博士论文),这将对你非常有益。

        3
  •  0
  •   ferdystschenko    15 年前

    Moses 是一个统计机器翻译套件,您可能想看看。它的单词对齐组件是基于giza++构建的,但可能会进行调整以更好地使用某些语言对,而不是纯giza++。他们的邮件列表和您可以在其中找到的资源 http://www.statmt.org/ 也可能是一个比这样更好的地方来问这个话题的问题。有一件事你什么都没说,但我认为更麻烦的是在哪里可以得到一个平行的印地语语料库<->英语。