代码之家 › 专栏 › 技术社区 › user9092346

在保持变量的同时更改pandas中的字符串

pandas regex python

user9092346 · 技术社区 · 6 年前

我在pandas(df['case'])中的数据包含两种引用美元金额的方法:

区别就在空白处。我现在想用“USD”替换“USD”,但前提是USD后面跟一个数字-同时保留数字。

df['case'] = df['case'].str.replace('USD ', 'USD', re.IGNORECASE)

将不起作用,因为它也将包含不跟随数字的实例(见第三示例)。

df['case'] = df['case'].str.replace('USD (\d+)', 'USD', re.IGNORECASE)

这将只匹配后跟数字的情况,但也将替换数字。有没有办法告诉它找到变量,然后替换变量之外的所有内容?基本上:

df['case'] = df['case'].str.replace('USD (\d+)', 'USD(\d+)', re.IGNORECASE)

第二个(\D+)不是字面上的,而是作为一个位置的持有者,之前的数字将被再次插入这里。

我也试过:

for row in df['case'].str.contains('USD (\d+), re.IGNORECASE):
   df['case'] = df['case'].str.replace('USD ', 'USD', re.IGNORECASE)

后者不能在行上迭代,只能在包含字符串的行中执行更改。后者的解决方案将有助于解决许多其他问题。

1 回复 | 直到 6 年前

Wiktor StribiÅ¼ew 6 年前

使用

(?i)USD\s+(?=\d)

细节

熊猫:

df['case'] = df['case'].str.replace(r'(?i)USD\s+(?=\d)', 'USD')

如果你需要保留 美元 在原来的情况下 使用

df['case'] = df['case'].str.replace(r'(?i)(USD)\s+(?=\d)', r'\1')

也就是说,抓住 美元 进入捕获组,然后使用 \1 返回引用/占位符,引用字符串替换模式中的组值。

推荐文章

Mainland · Python数据帧规范化值错误:列的长度必须与键相同

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

rpn · 如何在列[1]中连续第二次出现“0”时返回列[0]的值

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前

Gtoth · 如何分割Pandas DataFrame中包含多个日期的两个时间戳之间的差异

1 年前

Domarius · 使用loc为多行设置多列值

1 年前

Swastik Bhattacharyya · 如何在同一类别类型的多列上运行get_dummies()函数?

1 年前

DrZoidberg09 · 如何在字典列表中创建一个新关键字,该关键字是另一个关键字的总和?

1 年前

armstrong3701 · 如何有效地处理熊猫数据框中缺失的数据并计算条件统计?

1 年前

msts1906 · 大熊猫向乳胶的适当多品种出口

1 年前