代码之家 › 专栏 › 技术社区 › Hypothetical Ninja

用相同的soundex替换单词

soundex regex python

Hypothetical Ninja · 技术社区 · 11 年前

我有一个介词拼写错误的句子列表。我有一份拼写正确的准备列表:

ref_data = ['near','opposite','off','towards','behind','ahead','below','above','under','over','in','inside','outside']

我需要从我的数据中计算单词的soundex,如果soundex匹配,则用我的参考单词替换。。这是我的代码:

for line in text1:
for word in line.split():
    if jellyfish.soundex(word)==jellyfish.soundex([words,int in enumerate(ref_data)])
       word = #replace code here

我真的很困惑。。文本1包含[“他在喷泉里”,……更多]等句子。请帮忙。。我的语法错误。。

1 回复 | 直到 11 年前

Martijn Pieters 11 年前

我会使用:

# mapping from soundex to correct word
soundex_to_ref = {jellyfish.soundex(w): w for w in ref_data}

for line in text1:
    words = [soundex_to_ref.get(jellyfish.soundex(w), w) for w in line.split()]

这会为每一行生成一个单词列表,所有与拼写正确的单词匹配的单词都由soundex替换为正确的单词。

这个 [... for .. in ...] 语法是一种列表理解,它为 for 环所以,对于 line.split() 我们产生 soundex_to_ref.get(jellyfish.soundex(w), w) 表达式。

这个 soundex_to_ref 对象是一个字典,从 ref_data 列表对于列表中的每个单词,字典都有一个关键字(该单词的soundex值),该值是原始单词。这使我们可以轻松查找给定soundex的参考词。

dict.get() 让您在字典中查找关键字,如果是不如果存在,则返回默认值。 soundex.to_ref.get(水母.soundex(w),w) 为当前单词创建soundex w ,查找参考单词,如果词典中不存在soundex,则替换原始单词。

您可以加入 words 使用以下方法将列表重新排列成一个句子:

line = ' '.join(words)

您可以重建 text1 在一个表达式中:

text1 = [' '.join([soundex_to_ref.get(jellyfish.soundex(w), w) for w in line.split()])
         for line in text1]

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

10 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

10 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

11 月前

user29715306 · from_users=和chats=电视节目中的差异

11 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

11 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

11 月前

prayner · 更新嵌套字典包含列表中的项

11 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

11 月前

Dave · 如何在for循环中修改列表值

11 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

11 月前