代码之家 › 专栏 › 技术社区 › Joe

正则表达式生成器/减缩器?

algorithm regex

Joe · 技术社区 · 14 年前

一位同事向我提出了一个有趣的问题,关于我们目前的操作难点,我很好奇是否有什么东西(实用程序/库/算法)可以帮助实现自动化。

所以,如果我的清单是:

http://www.example.com
http://www.example.com/subdir
http://foo.example.com

^(http://www.example.com|http://www.example.com/subdir|http://foo.example.com)$

目前,我们手动编写正则表达式,但这并不能很好地扩展,也不能很好地利用任何人的时间。有没有一种更自动化的方法来分解源数据,从而得到一个匹配所有源值的长度最优正则表达式?

8 回复 | 直到 7 年前

RafaÅ Dowgird 14 年前

这个 Aho-Corasick 匹配算法构造一个有限自动机来匹配多个字符串。您可以将自动机转换为等效的regex,但是直接使用自动机更简单(这就是算法所做的)

ESL 12 年前

kemio.com.ar/tools/lst-trie-re.php

您在右侧放置一个列表,提交它,然后在左侧获取regexp。

var re=new RegExp(/..../,"mib");

zwol 14 年前

regexp-opt ( source code )它并不能完全满足您的需要(它只适用于固定字符串),但它可能是一个有用的起点。

Mau 14 年前

trie ,或 compressed trie ,甚至更好 directed acyclic word graph

不过,您必须放弃regexp。

Carl Smotricz 14 年前

我认为退一步想想你在做什么,以及为什么这样做是有意义的。

如果您确实需要regexp,那么您试图适应的变量差异是什么?也就是说,输入的哪一部分必须逐字匹配,哪里有回旋余地?

如果您真的想使用regexp来匹配一个固定的字符串列表,也许是出于性能原因,那么编写一个将所有输入字符串粘在一起的方法应该足够简单,就像您的示例中那样。在后台进行regexp匹配的状态机非常聪明,如果您的匹配备选方案具有公共(因此可能是冗余的)子字符串,则不会运行得更慢。

MAK 14 年前

从另外两个答案中得到提示,您只需要匹配所提供的字符串,您最好直接进行字符串匹配(慢)或构造一个简单的FSM来匹配这些字符串(快)。

regex实际上创建了一个FSM,然后将您的输入与之匹配,因此如果输入来自一组以前已知的集合,那么您可以自己创建FSM,而不是尝试自动生成regex,这通常更容易。

Trie 然后查询它(因为您匹配的是整个字符串,而不是子字符串)?

serv-inc 7 年前

一种简单的方法是使用Python的 hachoir_regex 模块:

urls = ['http://www.example.com','http://www.example.com/subdir','http://foo.example.com']
as_regex = [hachoir_regex.parse(url) for url in urls]
reduce(lambda x, y: x | y, as_regex)

创建简化正则表达式

http://(www.example.com(|/subdir)|foo.example.com)

代码首先为每个URL创建一个简单的regex类型,然后用 |

推荐文章

SkyWalker · 在JavaScript中,合并日期-时间序列的有效算法是什么?

1 年前

root · 计数算法

1 年前

André Silveira · 使用循环将数组的每个槽递增1。数组的大小是传递给函数的参数

2 年前

danial · 如何在多个字符串的每个位置找到最频繁的字符

2 年前

Manny · 如何比较Perl中的字符串?

2 年前

Suhail Gupta · 在排序阵列中查找目标范围的时间复杂度-此解在最坏情况下是否为O(N)?

2 年前

Diret · 获取范围内每个数字的子倍数的算法

2 年前

Saif · 排序时python如何决定何时调用比较器?

2 年前

TryingToLearn · 我如何为通用遥控器构造一个类,该遥控器向连接到它的各种设备发送开/关命令?

2 年前

Sneha Sharma · 滑动窗口-在我的代码中找不到错误(非常基本的算法)

2 年前