代码之家 › 专栏 › 技术社区 › SpaceTrucker

应该使用什么正则表达式来匹配多行日志消息?

batch-file powershell regex c#

SpaceTrucker · 技术社区 · 8 年前

我正在编写一个批处理文件,用于处理我的应用程序的日志文件。

日志文件可能包含开头与正则表达式匹配的消息 ^.{24}\[ERROR 后面是一些我需要找到的连续行。日志消息的结束将由正则表达式的下一个匹配项表示 ^.{24}\[[A-Z

(?m)^.{24}\[ERROR(.*\r?\n?.)*?^.{24}\[[A-Z] 以查找此类消息。但是性能非常差,因为它目前已经为几个MB的日志文件运行了几分钟。

我使用的完整批处理文件是:

@Echo off

powershell -Command "& {[System.Text.RegularExpressions.RegEx]::Matches([System.IO.File]::ReadAllText('application.log'), '(?m)^.{24}\[ERROR(.*\r?\n?.)*?^.{24}\[[A-Z]') | Set-Content result.txt}"

我应该使用什么正则表达式来匹配上述日志消息?

1 回复 | 直到 8 年前

Wiktor StribiÅ¼ew 8 年前

关键是您的正则表达式包含 (.*\r?\n?.)*? 部分,包含嵌套的可选(即匹配空文本)子模式。一旦在一个组中量化,正则表达式引擎就会在承认没有匹配之前尝试许多组合,从而导致灾难性的回溯或超时问题。

其中一个解决方案就是使用带有DOTALL修饰符的惰性点匹配模式:

(?ms)^.{24}\[ERROR(.*?)^.{24}\[[A-Z]

请参阅 regex demo

NET正则表达式引擎处理子模式的能力要比PCRE、Python-re、JavaScript好得多。

然而,惰性匹配会降低性能,最好将其展开。我建议

(?m)^.{24}\[ERROR(.*(?:\n(?!.{24}\[[A-Z]).*)*)\n.{24}\[[A-Z]

看见 another regex demo

请注意,这两个参数在匹配方面是相同的,但在怎样它们匹配。当第一个尝试匹配模式的尾部并在失败时逐个扩展1个字符时,展开的模式只是将文本部分抓取到一个换行符,并且所有没有24个非换行符的换行符都后跟 [ 和大写ASCII字母,即更快 .

RegexHero。净测试:

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前