代码之家 › 专栏 › 技术社区 › Tomasz Wysocki

用等价的ASCII替换特殊字符

unicode python

Tomasz Wysocki · 技术社区 · 15 年前

是否有任何lib可以将特殊字符替换为等价的ASCII字符,例如:

"CzeÅÄ"

到:

"Czesc"

我当然可以创建地图:

{'Å':'s', 'Ä': 'c'}

并使用一些替换功能。但我不想将所有等价物硬编码到我的程序中,如果有一些函数已经做到了这一点的话。

5 回复 | 直到 11 年前

nosklo 15 年前

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import unicodedata
text = u'CzeÅÄ'
print unicodedata.normalize('NFD', text).encode('ascii', 'ignore')

dan04 15 年前

您可以通过以下方式获得大部分信息:

import unicodedata

def strip_accents(text):
    return ''.join(c for c in unicodedata.normalize('NFKD', text) if unicodedata.category(c) != 'Mn')

不幸的是,存在无法分解成ASCII字母+组合符号的重音拉丁字母。你必须手动处理它们。这些包括:

γ射线
γ射线衍射
γ射线
第二代
γ-π
γ射线
α°
γ射线
第二代
第二章
第二章
α-εf

Grzegorz Skrzypczak 14 年前

我是这样做的:

POLISH_CHARACTERS = {
    50309:'a',50311:'c',50329:'e',50562:'l',50564:'n',50099:'o',50587:'s',50618:'z',50620:'z',
    50308:'A',50310:'C',50328:'E',50561:'L',50563:'N',50067:'O',50586:'S',50617:'Z',50619:'Z',}

def encodePL(text):
    nrmtxt = unicodedata.normalize('NFC',text)
    i = 0
    ret_str = []
    while i < len(nrmtxt):
        if ord(text[i])>128: # non ASCII character
            fbyte = ord(text[i])
            sbyte = ord(text[i+1])
            lkey = (fbyte << 8) + sbyte
            ret_str.append(POLISH_CHARACTERS.get(lkey))
            i = i+1
        else: # pure ASCII character
            ret_str.append(text[i])
        i = i+1
    return ''.join(ret_str)

执行时:

encodePL(u'ÄÄÄÅÅÃ³ÅÅºÅ¼ ÄÄÄÅÅÃÅÅ¹Å»')

它将产生如下输出:

u'acelnoszz ACELNOSZZ'

这对我来说很好。

Marcin Wojnarski 11 年前

试试 trans 包裹。看起来很有前途。支持抛光。

John Machin Santi 15 年前

unicodedata.normalize技巧最好描述为half assci。这里是一个 robust approach 其中包括一张不分解的字母地图。注意注释中的其他地图条目。

推荐文章

Harimbola Santatra · 如何获取JSON中包含unicode代码点的键的值?

1 年前

oymonk · 如何使Excel识别Unicode CSV上的数据列?

1 年前

paarandika · 如何使用PyMuPDF将unicode文本插入PDF?

1 年前

TLeo · 无法从导出的Instagram聊天记录中解析非ASCII字符[重复]

1 年前

Boltu · pandas从url返回的值是什么?

1 年前

trystine · 试图运行CausalNex错误UnicodeEncodeError:“charmap”编解码器无法对位置263607-263621中的字符进行编码:字符映射到<undefined>

2 年前

Danny Coleiro · 向文本字符串添加不可见字符

2 年前

bsteo · Python re.sub(),带有Unicode表达式词典[重复]

2 年前

é³ä¿ç William · Flask应用程序在新计算机上遇到Unicode编码错误[已关闭]

2 年前

user3443063 · 如何将unicode数字转换为std::wstring?

2 年前