代码之家 › 专栏 › 技术社区 › Halil Ä°brahim AkalÄ±n

在pandas处修剪每列值

strip text-mining pandas python

Halil Ä°brahim AkalÄ±n · 技术社区 · 7 年前

我正在努力。xls文件在使用熊猫将数据导入数据框后,需要对其进行修剪。我有很多专栏。列中以xxx:或yyy:和开头的每个数据例如:

xxx:abc yyy:def\n
xxx:def yyy:ghi\n
xxx:ghi yyy:jkl\n
。。。

我需要为每列修剪xxx:和yyy:。研究并尝试了一些问题解决方案,但都不起作用。我怎样才能修剪它,我需要一个有效的代码。已经谢谢了。

(不必要的字符没有静态长度,我只知道它们看起来像什么停止词。例如:

[“公司:苹果”,“产品:iPhone”,“年份:2018”,“128GB”,…]
[“公司:三星”,“产品:备注”,“年份:2017”,“64GB”,…]

我希望新数据集如下所示:

['Apple','iPhone','2018','128GB',…]
['Samsung','Note','2017','64GB',…]

所以我想修剪('公司:','产品:','年份:',…)每列的停止字。

1 回复 | 直到 7 年前

jpp 7 年前

您可以使用 pd.Series.str.split 为此:

import pandas as pd

df = pd.DataFrame([['Comp:Apple', 'Product:iPhone', 'Year:2018', '128GB'],
                   ['Comp:Samsung', 'Product:Note', 'Year:2017', '64GB']],
                  columns=['Comp', 'Product', 'Year', 'Memory'])

for col in ['Comp', 'Product', 'Year']:
    df[col] = df[col].str.split(':').str.get(1)

#       Comp Product  Year Memory
# 0    Apple  iPhone  2018  128GB
# 1  Samsung    Note  2017   64GB

推荐文章

Ä°lkem Ãetinkaya · 读取csv文件时在循环中使用python rstrip

7 年前

Halil Ä°brahim AkalÄ±n · 在pandas处修剪每列值

7 年前

MakkaCha · 使用批处理脚本从文件名中删除日期

7 年前

OPP · Python在保存行后不断删除行

7 年前

Fred J. · mrgalaxy:未定义条纹应用程序

7 年前

chitown88 · python通过一种字符模式来遍历或删除字符串的末尾

7 年前

Banghua Zhao · Python(2.7.14rc1)官方文档中对条带方法的两种不同定义?str.strip([字符])与字符串。条带[,字符])

7 年前

dev02 · 我需要退款吗?

7 年前

user6178315 · 逐行将文档附加到列表[重复]

9 年前

BilliAm · 在每个列表项Python中的字符之后删除所有列表项中的文本

10 年前