代码之家 › 专栏 › 技术社区 › 324

Pandas-从文本中分离章节编号

data-cleaning dataframe string pandas python-3.x

-1

324 · 技术社区 · 3 年前

我在熊猫数据框架中有一列,格式如下:

ColumnA
========
4 Requirements
Requirement blah blah
Requirement blah blah blah
4.1.1 Requirement Subsection
4.1.1.1 Requirement subsection subsection
blah blah blah
...

我正试着把数字和文字分开。换句话说,我想要两列,如下所示:

ColA      ColB
=================================
4         Requirements
          Requirement blah blah
          Requirement blah blah blah
4.1.1     Requirement Subsection
4.1.1.1   Requirement subsection subsection
          blah blah blah
...

如果记录存在,则节号将始终位于记录的开头。我怎样才能完成这样的事情?

1 回复 | 直到 3 年前

mozway 3 年前

您可以使用 str.extract :

df['ColumnA'].str.extract('^(\d+[.\d]*)?\s*(.*)')

# or with named capturing groups
df['ColumnA'].str.extract('^(?P<ColA>\d+[.\d]*)?\s*(?P<ColB>.*)')

输出:

      ColA                               ColB
0        4                       Requirements
1      NaN              Requirement blah blah
2      NaN         Requirement blah blah blah
3    4.1.1             Requirement Subsection
4  4.1.1.1  Requirement subsection subsection
5      NaN                     blah blah blah

推荐文章

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

1 年前

Cam · Pandas列表日期到日期时间

1 年前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

1 年前

jjkennedy · Pandas文本文件导入:当每个文件中存在多个表时,自动选择1个表

1 年前

LMC · Numpy数组布尔索引以获取包含元素

1 年前

vr8ce · 非成对标记中特定字符的正则表达式

1 年前

Kernel · 如果指定了crs参数,shapefile的geopandas.read_file将出错

1 年前

ShaAnder · 为什么sqllachemy返回的是类而不是字符串

1 年前

sixtytrees · detectron2软件包未安装(没有名为“torch”的模块),但我安装了torch

1 年前

Pernoctador · Python映射可以复制吗?我需要参考地图

1 年前