![]() |
1
5
让我们先澄清一些术语: 语言 是一种人类语言,像英语、汉语、韩语或日语。语言是用 书写系统 编码 ,这使得仅使用二进制表示法(1和0)来表示单个字符成为可能。
考虑到所有这些,你想要的是介于不清楚和不可能之间的东西。你 能够 删除文本中的所有汉字(删除中文中使用的任何字符),但对于日语,这也意味着在很大程度上删除日语文本(韩语的情况不太一样,但版本相同)。这就像从英语文本中删除拉丁字母一样;如果你这么做,剩下的就不多了。你 可以尝试 检测某些文本是否以主要偏向于一种特定语言的编码方式进行编码,但如果您的文本以Unicode编码方式进行编码,则没有什么可区分的。你 尝试语言分析来检测文本中使用的语言,但您表示不想检测“语言”。 你 试着检测字符串中是否有一些特定的韩语(朝鲜文)或日语(假名)字符,这很好地表明文本可能是这些语言中的一种。然而,在日语的情况下,你会得到错误的否定,因为一个短短语完全可能只包含中文字符,并且仍然是有效的日语。 对于上述问题,我能给出的唯一建议是回到绘图板,找出你到底想做什么。 |
![]() |
M - · 为什么两个相同的表情符号不相等? 3 年前 |
![]() |
Mohsen · 将字符串从Windows 1256转换为UTF-8 7 年前 |
![]() |
AMINA ARSHAD · 从字符转换为Unicode数字时出错 7 年前 |
![]() |
Taqwa · 在C#[已关闭]中将上标转换为Unicode 7 年前 |