代码之家  ›  专栏  ›  技术社区  ›  Ricardo Stary Rodrigues

R编码:<>unicode到字母

  •  0
  • Ricardo Stary Rodrigues  · 技术社区  · 6 年前

    我在使用RFacebook包从帖子中提取评论时遇到问题。

    localiza <- getPage(543362459038077,token = my_oauth,n=10)
    post <- getPost(post = localiza$id[1], token = my_oauth) here
    

    问题是输出的编码。例如:

    阿尔古/U+00E9/m

    请注意,输出不是“/”,而是<&燃气轮机;

    例如,该词应显示为

    阿尔古姆

    有什么建议吗?

    提前感谢!

    1 回复  |  直到 6 年前
        1
  •  3
  •   Weihuang Wong    6 年前

    考虑更改 locale . 这不是问题 Rfacebook . 我可以通过将locale设置为 C ,例如。

    x <- "Boa tarde. Há alguém de plantão na agência esses dias?"
    Sys.setlocale(locale = "C")
    x
    # [1] "Boa tarde. H<U+00E1> algu<U+00E9>m de plant<U+00E3>o na ag<U+00EA>ncia esses dias?"
    

    通过将字符集处理的区域设置切换为具有扩展字符集的区域设置,可以实现所需的输出,例如:。

    Sys.setlocale(category = "LC_CTYPE", locale = "en_US.UTF-8")
    x
    # [1] "Boa tarde. Há alguém de plantão na agência esses dias?"
    

    的值 场所 系统上的参数可能不同。看见 https://stat.ethz.ch/R-manual/R-devel/library/base/html/locales.html (或 ?locales )有关设置区域设置的详细信息。