代码之家 › 专栏 › 技术社区 › BCS

用于批量比较/diff HTML的工具

batch-processing diff

4

BCS · 技术社区 · 15 年前

我从服务器上刮取了很多HTML文件(10000和GBs),我想检查一下,以确保服务器在经过一些修改后产生相同的结果,但忽略无关紧要的各种差异,例如空白、缺少换行符、时间戳、某些数字的小变化等。

有人知道这样做的工具吗?我真的不想做更多的过滤。

(哦,它需要在linux下运行)

3 回复 | 直到 15 年前

1

Ira Baxter 15 年前

您可以考虑使用克隆检测器,例如我们的 CloneDR 。该工具解析大量计算机程序(HTML是特例)文件,构建代表每个文件基本结构的抽象语法树,并比较程序的相似性。因为它比较的是基本的程序结构,所以它忽略了注释和空格等不重要的差异,并确定两个代码段要么相同,要么可以通过替换其他代码块从另一个代码段获得一个代码段。后者允许识别以各种方式修改的代码。你可以在网站上看到各种计算机语言上运行的克隆检测示例。

在您的情况下,您要查找的是系统A中的文件,这些文件本质上是系统B中文件的克隆(精确或几乎未命中) A. 是文件的变体 B (例如,进行一些更改)克隆人会将其报告为克隆人,并显示确切的差异。

在20000个文件的规模下,我可以理解为什么你想要一个工具,我可以理解为什么你想要未遂匹配而不是精确匹配。

不在Linux下运行,但我认为您的问题很难解决,所以这不是您要优化的。

2

0

Gustav Syrén 15 年前

我在windows中经常使用winmerge,从我所看到的情况来看,有些人喜欢在linux中使用meld,所以也许这可以帮到你 http://meld.sourceforge.net/

我在谷歌上看到的其他例子还有Kompare,xxdiff。sourceforge。net和kdiff3。sourceforge。网

(只能发布1个链接,将地址以文本形式写入xxdiff和kdiff3)

3

0

Bryan Ash 15 年前

Beyond Compare 购买的软件实际上是物有所值的(我从没想过我会听到自己在打字!)。它是基于GUI的,但能很好地处理数千个文件。它将允许您使用正则表达式以及空格(行首、行中和行尾)指定不重要的更改。该功能集非常广泛,请查看试用下载。

我不是为这家公司工作,我只是每天在工作中使用超越,享受每一次!