代码之家 › 专栏 › 技术社区 › Peter Kim

Imdb review编码错误

rnn nlp python

Peter Kim · 技术社区 · 8 年前

有一个词汇词典,在预处理中,我回顾了一些索引序列。
例如

“这部电影是最好的”->[2,5,10,3]

num of reviews 100
number of unique tokens : 4761
Traceback (most recent call last):
  File "preprocess.py", line 47, in <module>
    print(vocab)
UnicodeEncodeError: 'ascii' codec can't encode character '\xe9' in position 10561: ordinal not in range(128)

代码如下:

from bs4 import BeautifulSoup
reviews = []
for item in os.listdir('imdbdata/train/pos')[:100]:
    with open("imdbdata/train/pos/"+item,'r',encoding='utf-8') as f:
        sample = BeautifulSoup(f.read()).get_text()
    sample = word_tokenize(sample.lower())
    reviews.append(sample)
print("num of reviews", len(reviews))
word_freq = nltk.FreqDist(itertools.chain(*reviews))
print("number of unique tokens : %d"%(len(word_freq.items())))
vocab = word_freq.most_common(vocab_size-1)
index_to_word = [x[0] for x in vocab]
index_to_word.append(unknown_token)
word_to_index = dict((w,i) for i,w in enumerate(index_to_word))
print(vocab)

问题是,我怎么能逃脱这个 UnicodeEncodeError 在用Python处理自然语言处理问题时?尤其是在使用 open 作用

1 回复 | 直到 8 年前

mhawke 8 年前

看起来您的终端配置为ASCII。因为角色 '\xe9' 超出ASCII字符范围(0x00-0x7F),无法在ASCII终端上打印。它也不能编码为ASCII:

>>> s = '\xe9'
>>> s.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character '\xe9' in position 0: ordinal not in range(128)

您可以在打印时显式编码字符串,并用替换不支持的字符来处理编码错误 ? :

>>> print(s.encode('ascii', errors='replace'))
b'?'

您可以检查用于标准输出的编码。在我的例子中,它是UTF-8,我打印这个字符没有问题:

>>> import sys
>>> sys.stdout.encoding
'UTF-8'
>>> print('\xe9')
Ã©

您可以强制Python使用不同的默认编码;有一些讨论 here ,但最好的方法是使用支持UTF-8的终端。

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

1 年前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

1 年前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

1 年前

user29715306 · from_users=和chats=电视节目中的差异

1 年前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

1 年前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

1 年前

prayner · 更新嵌套字典包含列表中的项

1 年前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

1 年前

Dave · 如何在for循环中修改列表值

1 年前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

1 年前