代码之家  ›  专栏  ›  技术社区  ›  daxim Fayland Lam

有没有比卡卡西图书馆更好的东西来整理戈戎?

  •  9
  • daxim Fayland Lam  · 技术社区  · 14 年前

    Text::Kakasi 在一个公认的有限的方式正确性和它的工作只是我们的需要很好。

    use utf8;
    use Encode;
    use Text::Kakasi;
    use Unicode::Collate;
    
    my $k = Text::Kakasi->new(qw(-iutf8 -outf8 -JH));
    my $c = Unicode::Collate->new;
    
    print encode_utf8 $_ for
        map  { $_->[0] }
        sort { $c->cmp($a->[1], $b->[1]) }
        map  { [$_, $k->get($_)] }
        <DATA>;
    
    __DATA__
    アメリカ合衆国
    アラブ首長国連邦
    ロシア連邦
    中国
    南アフリカ共和国
    日本
    北京(ペキン)
    大阪
    東京
    
    3 回复  |  直到 12 年前
        1
  •  5
  •   dda    12 年前

    我所知道的另一个(严肃的)开源转换工具是 N-gram ,不是最明确的名字。。。它有巨大的字典,可能比卡卡西更好。但我没有看到任何比较。

    编辑:

    在这种情况下,我对一个天秤座比其他天秤座“更好”的概念进行了一些思考。有一件事可以做,那就是拿N-gram的字典来和kakasi做比较。如果kakasi无法转换N-gram的一些条目,可以说N-gram更好,因为它的词汇更丰富——提高了排序的准确性。

        2
  •  2
  •   kmugitani    14 年前

    我不确定“权威”的含义。

    但我可以说Kakashi是众所周知的免费软件库,至今仍未过时。

    如果您可以通过Kakashi将汉字字符串转换为平假名(或片假名)字符串,得到的排序顺序就可以了。

    http://www.utf8-chartable.de/unicode-utf8-table.pl

        3
  •  2
  •   Oleg V. Volkov    12 年前

    考虑到Kakasi所做的只是从提供的字典中为特定的日语字符串提取假名/罗马字,您很难得到更精确的结果。精度取决于所用词典的质量。