代码之家 › 专栏 › 技术社区 › Am1rr3zA

使用正则表达式从python中的readline()获取一些子字符串

regex python

Am1rr3zA · 技术社区 · 15 年前

我使用tcpdump来嗅探我的netrok包,我想从存储的文件中获取一些信息。我的文件有两行语法分隔的行,但它们重复了很多次。

23:30:43.170344 IP (tos 0x0, ttl 64, id 55731, offset 0, flags [DF], proto TCP (6), length 443)

192.168.98.138.49341 > 201.20.49.239.80: Flags [P.], seq 562034569:562034972, ack 364925832, win 5840, length 403

我想得到 时间戳 (23:30:43.170344)和 身份证件 (ID 55731)和抵消 (23:30:43.170344)从第一行(我的档案上都是这样的行)。并存储在不同的列表中。

得到2 分离IP (192.168.98.138.49341和201.20.49.239.80)和 SEQ (顺序562034569:562034972)和 ACK (ACK 364925832)从第二行(我文件中的所有行都是这样)开始,存储在不同的列表中。

如果能用正则表达式做到这一点,那对我来说就更好了。

1 回复 | 直到 15 年前

pyfunc 15 年前

对于第一部分,获取时间戳、ID和偏移量。

我相信这是一个粗俗的瑞格舞娘。

>>> import re
>>> l = '23:30:43.170344 IP (tos 0x0, ttl 64, id 55731, offset 0, flags [DF], proto TCP (6), length 443)'
>>> k = re.compile(r'^([0-9:]+\.[0-9]+) IP \(.* id ([0-9]+), offset ([0-9]+).*\)')
>>> x = k.match(l)
>>> x.groups()
('23:30:43.170344', '55731', '0')
>>> x.groups()[0]
'23:30:43.170344'
>>> x.groups()[1]
'55731'
>>> x.groups()[2]
'0'
>>>

第二部分:

>>> l = '192.168.98.138.49341 > 201.20.49.239.80: Flags [P.], seq 562034569:562034972, ack 364925832, win 5840, length 403'
>>> k = re.compile(r'^([0-9.]+) > ([0-9.]+): .* seq ([0-9:]+), ack ([0-9]+).*')
>>> x = k.match(l)
>>> for y in x.groups(): print y
... 
192.168.98.138.49341
201.20.49.239.80
562034569:562034972
364925832

有关RE模块的阅读:

http://www.doughellmann.com/PyMOTW/re/

推荐文章

DotFX · RegEx捕获关键字前但括号后的所有内容

1 年前

user66001 · 正则表达式用于匹配有引号和无引号的文本,并且不匹配任何部分

1 年前

perlchamp · 为什么这也匹配?

1 年前

con · Negative Lookaward在perl正则表达式中不起作用

1 年前

Andrus · 如何在sql中查找第二个匹配项

1 年前

iato · 确保正则表达式不从命名材料中的数字中提取

1 年前

vr8ce · 非成对标记中特定字符的正则表达式

1 年前

MARTIN · 交换第一个和最后一个单词,反转所有中间的字符

1 年前

Carsten · 使用最近的搜索模式更改文本块

1 年前

Eric Marceau · Grep:有没有一种特殊的方法可以将“无字符”作为“字符位置”匹配的置换?

1 年前