![]() |
1
5
这个 Berkeley Aligner 很好。通过对IBMWordAlignment模型进行联合培训,它能够获得比Giza++等旧软件包更低的对齐错误率(AER)。 它还支持一些更高级的特性,例如语法失真(即使用解析树信息来获得更好的对齐)。为此,您只需要为其中一个语言对解析树。因此,您应该可以使用印地语-英语,因为这里有很多免费的和良好的英语解析器。 如果你决定不使用伯克利校准器,你应该只使用giza++。多年来,基本上 标准 机器翻译社区中的单词对齐器。 |
![]() |
2
2
uplug是一个很好的工具,我一直在使用它来调整英语和马其顿语的文本。 它通过添加所谓的线索对齐,基本上建立在Giza++之上。它的高级设置实际上结合了线索对齐和giza++并执行了3次这样的迭代。更多线索(位置标签,引理…)你提供的结果会更好。但是我必须提到的是,你不应该期望仅仅通过使用giza++就得到根本不同的结果。 不管怎样,如果你打算认真研究SMT的主题,我建议你读一下关于UPLUG的论文(博士论文),这将对你非常有益。 |
![]() |
3
0
Moses 是一个统计机器翻译套件,您可能想看看。它的单词对齐组件是基于giza++构建的,但可能会进行调整以更好地使用某些语言对,而不是纯giza++。他们的邮件列表和您可以在其中找到的资源 http://www.statmt.org/ 也可能是一个比这样更好的地方来问这个话题的问题。有一件事你什么都没说,但我认为更麻烦的是在哪里可以得到一个平行的印地语语料库<->英语。 |