代码之家  ›  专栏  ›  技术社区  ›  Faisal

ROR中的阿拉伯语全文搜索

  •  0
  • Faisal  · 技术社区  · 15 年前

    我正在尝试将全文搜索功能添加到我的ror应用程序中,但在阿拉伯语方面会遇到一些问题。在阿法克,没有多少搜索引擎支持阿拉伯语词干、形态学和其他高级全文搜索。我发现的唯一一件事就是带着芳纶标记器的Lucene。

    acts-as-solr插件(solr基于lucene,这个插件与rails集成)似乎被废弃了,我找不到任何有用的文档。

    我研究过狮身人面像、Xapian、雪貂和acts_可搜索,但据我所知,它们都没有提供高级的阿拉伯语搜索功能。

    任何帮助都会非常感谢

    =更新
    我有使用狮身人面像的建议,我在早期的项目中使用过,而且效果很好。但是,它不提供任何高级搜索功能。
    例如,单词“书”、“图书馆”和“作者”都来自同一词干。我想有能力搜索“作者”,并获得所有来自同一词干的单词的结果。
    另外,我希望搜索时考虑到常用的阿拉伯语听写风格。有些人用“hamza”(___),有些人用“haa”()来写单词。一个好的阿拉伯语搜索引擎应该意识到这些细微的差异并寻找它们。

    使用斯芬克斯,你只会得到你想要的东西,而我发现的唯一一个能用阿拉伯语处理这些问题的引擎,就是带着阿玛洛夫记号赋予器的Lucene。但是,acts-as-solr(Rails的Lucene插件)被放弃了。所以我的问题是:对于任何搜索引擎,还有其他类似的标记器吗?
    坎达达博古提到了太阳黑子,我会试试,然后再回复。

    2 回复  |  直到 15 年前
        1
  •  1
  •   amrnt    15 年前

    你应该通过扩展思考斯芬克斯选项来尝试这个。

    阅读此: http://www.expressionlab.com/2008/11/19/thinking-sphinx-in-arabic-unicode

        2
  •  1
  •   Harish Shetty    15 年前

    索尔使用 Sunspot Sunspot Rails .

    供狮身人面像使用 Thinking Sphinx

    这两个gem都是优秀的,有一个大的安装基础。我在一些项目中使用了thinkingsphinx,我强烈推荐它。