代码之家 › 专栏 › 技术社区 › oymonk

如何从pandas中的字符串中提取带有变量的正则表达式?

variables regex pandas python

oymonk · 技术社区 · 10 月前

我有一个包含文本的数据框列,我想创建一个新列,其中包含有名称的句子,但不包含其他句子。希望最终的结果是这样的:

我能够从名字列表中识别出包含名字的单元格,但我在提取包含名字的句子的部分遇到了问题。

import re
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'ColumnA': ['Lorum ipsum. This is approved. Lorum Ipsum.', 'Lorum Ipsum. Send the contract to May. Lorum Ipsum.', 'Junk Mail from Brian.']
})


last_names_list = ['May','Brian']

df['last_names'] = ''
for x in last_names_list:
    df['last_names'] = np.where(df['ColumnA'].str.contains(x),x,df['last_names'])

def f(x,y):
    return re.findall(fr'[^.]{x}[^.]',y)

df['col_3'] = df.apply(lambda x: f(x['last_names'],x['ColumnA']), axis=1)

print(df)

当我打印数据帧时,每一行都有一个名称 df[col_3'] 生成一个空列表。

任何帮助感谢。

2 回复 | 直到 10 月前

Panda Kim 10 月前

代码

pat = '|'.join(last_names_list)
df['col_3'] = df['ColumnA'].str.extract(rf'([^.]*?\b(?:{pat})\b.*?\.)')

df:

Sheldon 10 月前

如果你不想使用正则表达式,你可以修改这里提供的答案 SO post 自动识别包含中指定名称之一的句子 last_names_list :

last_names_list = ['May','Brian']
pattern = '|'.join(last_names_list)
df[df.ColumnA.str.contains(pattern)]

这将返回:

ColumnA
1   Lorum Ipsum. Send the contract to May. Lorum I...
2   Junk Mail from Brian.

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

3 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

3 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

3 月前

user29715306 · from_users=和chats=电视节目中的差异

3 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

4 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

4 月前

prayner · 更新嵌套字典包含列表中的项

4 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

4 月前

Dave · 如何在for循环中修改列表值

4 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

4 月前