代码之家  ›  专栏  ›  技术社区  ›  Suhail Gupta

python中多语言文本的标记化

  •  0
  • Suhail Gupta  · 技术社区  · 6 年前

    我正在尝试标记文本。为了让它起作用,我试着 Polygot 安装的方式,已经在文档中提到。安装之后,我一直在尝试运行这个简单的脚本:

    import polyglot
    from polyglot.text import Text, Word
    
    text = Text("\"သမၼတဦးဝင္းျမင့္ရဲ႕ ျခင္းခတ္ကစားဟန္\"\n\nႏိုင္ငံေတာ္သမၼတ ဦးဝင္းျမင့္  ျမန္မာ့ရိုးရာဝိုင္းျခင္းခတ္ ေနတဲ့ပုံေတြ ဟာ ဒီကေန႕ ညေနပိုင္းမွာထြက္ရိွလာပါတယ္။\n\nဒီကေန႕ ညေနပိုင္းမွာ သမၼတအိမ္ေတာ္ဝင္းအတြင္းမွာ သမၼတဟာ သူရဲ႕မိတ္ေဆြေတြနဲ႕ ျခင္းခတ္ခဲ့တာလို႕ သိရပါတယ္။\n\nသမၼတနဲ႕ဝိုင္းျခင္းခတ္တဲ့သူေတြထဲမွာေတာ့ အမ်ိဳးသားလႊတ္ေတာ္ကိုယ္စားလွယ္ ဦးေက်ာ္သီဟ ၊ အစိုးရ ရဲ႕ၿငိမ္းခ်မး္ေရးေကာ္မရွင္အဖြဲ႕ဝင္ ဦးေအာင္စိုးတို႕ပါဝင္ၾကပါတယ္။\n\nသမၼတ ဦးဝင္းျမင့္ဟာ   သမၼတတာဝန္မထမ္းေဆာင္မီ လႊတ္ေတာ္ကိုယ္စားလွယ္အျဖစ္ ေနျပည္ေတာ္က စည္ပင္ဧည္႕ရိပ္သာဝင္းအတြင္း ေနထိုင္စဥ္ကတည္းက အမ်ိဳးသားဒီမိုကေရစီအဖြဲ႕ခ်ဳပ္ ပါတီဝင္လႊတ္ေတာ္ကိုယ္စားလွယ္အခ်ိဳ႕နဲ႕ ညေနပိုင္းေတြမွာ  ျခင္းခတ္ေလ့ရိွပါတယ္။\n\nကိုယ္လက္လႈပ္ရွားအားကစားအျဖစ္  ျခင္းခတ္ေလ့ရိွတဲ့သူေတြထဲမွာ ေတာ့ လက္ရိွ မႏၱေလးတိုင္းဝန္ႀကီးခ်ဳပ္ ေဒါက္တာေဇာ္ျမင့္ေမာင္ ၊ ဧရာဝတီတိုင္းဝန္ႀကီးခ်ဳပ္ေဟာင္း မန္းေဂ်ာ္နီတို႕လည္း ပါဝင္ေလ့ရိွပါတယ္။ ")
    
    print(text.words)
    

    Traceback (most recent call last):
    
    File "tkn.py", line 2, in <module>
    from polyglot.text import Text, Word
    File "/home/ubuntu/anaconda3/envs/python3/lib/python3.6/site-packages/polyglot/text.py", line 9, in <module>
    from polyglot.detect import Detector, Language
    File "/home/ubuntu/anaconda3/envs/python3/lib/python3.6/site-packages/polyglot/detect/__init__.py", line 1, in <module>
    from .base import Detector, Language
    File "/home/ubuntu/anaconda3/envs/python3/lib/python3.6/site-packages/polyglot/detect/base.py", line 11, in <module>
    from icu import Locale
    
    ModuleNotFoundError: No module named 'icu'
    

    为了解决这个问题,我尝试了前面提到的多个步骤 here 而且很少 answers as given here Ubuntu .

    另外,如果我尝试安装 pip install pyicu Failed building wheel for pyicu error: command 'gcc' failed with exit status 1 .

    我不知道如何从这里开始。如何解决相关错误并使脚本正常工作?

    icu (为Ubuntu手工构建)但是没有帮助。

    curl -LO http://download.icu-project.org/files/icu4c/63.1/icu4c-63_1-src.tgz
    tar xzvf icu4c-63_1-src.tgz
    cd icu/source
    chmod +x runConfigureICU configure install-sh
    ./runConfigureICU Linux
    make
    sudo make install
    sudo cp -r common/unicode /usr/local/include/
    
    0 回复  |  直到 6 年前