![]() |
1
170
在Ruby1.9.3中,可以使用string.encode“忽略”无效的UTF-8序列。这是一个在1.8中都可以使用的代码片段( iconv (1.9) String#encode ):
或者,如果您的输入确实很麻烦,您可以执行从UTF-8到UTF-16和返回到UTF-8的双重转换:
|
![]() |
2
77
被接受的答案和另一个答案对我都不起作用。我发现 this post 这建议
这帮我解决了问题。 |
![]() |
3
23
我当前的解决方案是运行:
这至少能消除我的主要问题 |
![]() |
4
8
试试这个:
|
![]() |
5
4
我建议您使用HTML解析器。找一个最快的。 解析HTML并不像看上去那么容易。 浏览器解析无效的UTF-8序列,在UTF-8 HTML文档中,只需放置“_?.5”符号。所以一旦HTML中无效的UTF-8序列被解析,结果文本就是一个有效的字符串。 即使在属性值内,您也必须解码HTML实体,如AMP 下面是一个很好的问题,总结了为什么不能用正则表达式可靠地解析HTML: RegEx match open tags except XHTML self-contained tags |
![]() |
6
3
这似乎有效:
|
![]() |
7
3
|
![]() |
8
2
我遇到了字符串,它混合了英语、俄语和其他一些字母,这导致了异常。我只需要俄语和英语,目前这对我很有用:
|
![]() |
9
1
虽然Nakilon的解决方案有效,但至少在克服错误的过程中,在我的例子中,我有一个奇怪的f-ed up字符,源于Microsoft Excel,它被转换为csv,在ruby中注册为(get this)西里尔字母k,在ruby中是一个粗体k。为了解决这个问题,我使用了“iso-8859-1”即。
|
![]() |
10
0
在使用之前
|
![]() |
11
-1
如果你不关心数据,你可以做如下的事情:
我刚刚用过
|
![]() |
donefun · 在PHP中将波兰语字符存储为变量 3 年前 |
![]() |
AFX · 这是AES密钥的有效字节字符串吗? 7 年前 |
|
jubimk4 · UTF-8中的PUPPET无效字节序列 7 年前 |
![]() |
user3286053 · utf-8在列表中搜索单词 7 年前 |