代码之家 › 专栏 › 技术社区 › boddhisattva

自然语言处理词汇对齐

linguistics nlp alignment

boddhisattva · 技术社区 · 15 年前

我正在寻找单词对齐工具和算法。
我正在处理双语英语-印地语文本,目前正在努力

DTW (动态时间扭曲)算法
共轭亚油酸 (竞争链接算法)
NATools
Giza++

你能推荐其他独立于语言的算法/工具吗? 平行英语印地语语料库的统计对齐及其评价 .
对于某些语言,有些工具是最好的;你能告诉我这是多么的正确吗?如果是这样,你能举一个例子,说明哪些工具更适合印地语这样的亚洲语言吗?对于这种语言,我不应该使用的反例也很受欢迎。

我听说过一些 Uplug word aligner …有人能告诉我这个工具对我有用吗?

谢谢您。。:)

4 回复 | 直到 12 年前

dmcer 15 年前

这个 Berkeley Aligner 很好。通过对IBMWordAlignment模型进行联合培训,它能够获得比Giza++等旧软件包更低的对齐错误率(AER)。

它还支持一些更高级的特性,例如语法失真(即使用解析树信息来获得更好的对齐)。为此,您只需要为其中一个语言对解析树。因此,您应该可以使用印地语-英语,因为这里有很多免费的和良好的英语解析器。

如果你决定不使用伯克利校准器,你应该只使用giza++。多年来,基本上标准机器翻译社区中的单词对齐器。

msaveski 15 年前

uplug是一个很好的工具,我一直在使用它来调整英语和马其顿语的文本。它通过添加所谓的线索对齐,基本上建立在Giza++之上。它的高级设置实际上结合了线索对齐和giza++并执行了3次这样的迭代。更多线索(位置标签,引理…)你提供的结果会更好。但是我必须提到的是,你不应该期望仅仅通过使用giza++就得到根本不同的结果。

不管怎样,如果你打算认真研究SMT的主题,我建议你读一下关于UPLUG的论文(博士论文),这将对你非常有益。

ferdystschenko 15 年前

Moses 是一个统计机器翻译套件,您可能想看看。它的单词对齐组件是基于giza++构建的,但可能会进行调整以更好地使用某些语言对,而不是纯giza++。他们的邮件列表和您可以在其中找到的资源 http://www.statmt.org/ 也可能是一个比这样更好的地方来问这个话题的问题。有一件事你什么都没说,但我认为更麻烦的是在哪里可以得到一个平行的印地语语料库<->英语。