|
|
1
4
我已经进去了 确切地 同样的位置。生产mysql服务器设置为latin1,旧数据设置为latin1,新数据设置为utf8,但存储在latin1列中,然后添加utf8列,每行可以包含任意数量的编码。
最大的问题是没有一个单一的解决方案可以解决所有问题,因为许多传统编码对不同的字符使用相同的字节。这意味着你将不得不诉诸启发式。在我的
然后循环字符串中的字节(而不是字符)并保留分数。如果你想知道更多的信息,请告诉我。 |
|
|
2
1
下载iconv-您可以获得win32和unix/linux的二进制文件。它是一个命令行工具,接受一个源文件,在指定输入编码和输出编码之后,将为您执行到stdout的必要转换。 我发现自己经常使用这个工具将utf-16(作为sql server 2005导出文件的输出)转换为ascii。 您可以从这里下载: http://gnuwin32.sourceforge.net/packages/libiconv.htm |
|
|
3
0
考虑到数据的复杂性(一行/条目上有多个编码)。我认为您必须导出/转储数据,然后对其运行处理。 我认为最好的方法是一系列的人工替换。也许某种拼写更正代码可以找到所有错误-然后您可以添加显式更正代码。然后重复直到拼写检查停止查找错误? (显然,在字典中添加任何正确的单词,以便进行拼写检查)。 |
|
|
4
0
看一看 https://github.com/LuminosoInsight/python-ftfy -它很擅长做一个启发性的修正,将照顾到 相当地 一些比你看到数据的小样本时所期望的更丑陋的东西。 |
|
|
stack programming · 如何将损坏的文本恢复为阿拉伯语 1 年前 |
|
|
FoolishMortal · 无法显示从基64字符串解码的特定图像 1 年前 |
|
|
xchrisbradley · 使用Zig签名对功能选择器进行编码 2 年前 |
|
|
dax · 运行长度编码给出错误的结果 2 年前 |
|
Ben · 内存中的Python GZIP在现有文件上 2 年前 |
|
|
GoodCat · 如何将这64行缩短4个字符? 2 年前 |