代码之家 › 专栏 › 技术社区 › Hyperion

Python-替换字符串()中的非ascii字符

decoding encoding string regex python

Hyperion · 技术社区 · 8 年前

我需要将字符串中的字符“”替换为空白,但仍然会出现错误。这是我使用的代码:

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup

# other code

soup = BeautifulSoup(data, 'lxml')
mystring = soup.find('a').text.replace(' Â»','')

# -*- coding: utf-8 -*-
a = "hi Â»"
b = a.replace('Â»','')

它起作用了。为什么?

2 回复 | 直到 8 年前

Moinuddin Quadri 7 年前

为了替换字符串的内容,请使用 str.replace() 方法您需要首先解码字符串,然后替换文本并将其编码回原始文本:

>>> a = "hi Â»"
>>> a.decode('utf-8').replace("Â»".decode('utf-8'), "").encode('utf-8')
'hi '

您还可以使用以下正则表达式从字符串中删除所有非ascii字符:

>>> import re
>>> re.sub(r'[^\x00-\x7f]',r'', 'hi Â»')
'hi '

blacksite 8 年前

@Moinuddin Quadri的答案更适合您的用例,但一般来说,从给定字符串中删除非ASCII字符的简单方法如下:

# the characters 'Â¡' and 'Â¢' are non-ASCII
string = "hello, my name is Â¢arl... Â¡Hola!"

all_ascii = ''.join(char for char in string if ord(char) < 128)

这导致:

>>> print(all_ascii)
"hello, my name is arl... Hola!"

您也可以这样做:

''.join(filter(lambda c: ord(c) < 128, string))

但这比之前慢了30% char for char ... 方法

推荐文章

Aidan · 为什么在将最后一个索引分配给空终止符(\0)后,我无法释放char缓冲区

4 月前

Ben · 统计向量中的单词在字符串中出现的频率

4 月前

Mehan Alavi · TCP Socket-打印字符串中所有不在C中的字符不起作用

4 月前

Haru Hoshizora · 为什么一个整数的位置没有改变,但值却不同

5 月前

bear_525 · 从列中删除中间名和首字母,并保存在单独的列中

5 月前

asdfadf · 为什么具有相同内存值的字符串和整数打印方式不同?

6 月前

DrakeMurdoch · 统计每行中的字符数,如果所有字符数都低于某个数字,则删除

6 月前

user764754 · 防止多行原始字符串文字中出现新行字符

6 月前

Bogaso · 从列表中返回与模式匹配的元素

6 月前

Jasco · 如何使用VBA提取两个相似字符之间的字符串中的单词?

6 月前