![]() |
1
7
每个活跃在这个领域的主要软件公司都提供了解决方案套件,可以处理名称和地址解析、数据标准化、重复数据消除或匹配、记录链接/合并、生存等等。不过,它们都有点贵。 例如,Oracle自己针对这个问题的解决方案是 Oracle Data Quality (ODQ) for Oracle Data Integrator (ODI) ,这是他们的Fusion中间件堆栈的一部分。顾名思义,ODQ需要ODI(也就是说,它是一个附加模块,单独授权,依赖于ODI)。 IBM的WebSphere解决方案套件(通过其升级收购获得)包括 QualityStage . 现在是SAP公司的Business Objects Data Quality 其企业信息管理(EIM)套件下的产品。 其他主要数据质量品牌包括 Dataflux (一家SAS公司)和 Trillium Software (哈特汉克斯公司) Gartner Group发布了数据质量解决方案套件的年度魔力象限。在这些神奇象限中评分很高的供应商通常会将整个报告在线提供给其网站上的注册用户。( example 1 , example 2 ) |
![]() |
2
6
在开源方面,现在有一个python库用于执行这种重复数据消除/实体解析: Dedupe . 需要编程技能,但它是免费的,可以在笔记本电脑上运行,而不是一个巨大的服务器。 以下是对 how it works . |
![]() |
3
4
使用FirstLogic的经验教训。(其他产品应该是相似的。)在上下文中,我们从几十个来源获取文件,每个来源的格式都不同。我们需要知道哪些人需要添加到我们的数据库中,哪些人需要更新,哪些人只需要标记为“在列表上”。
不要认为它是自动进行匹配的工具。把它当作一个工具,让你的人类数据处理器更有效率。这样,你就设置好了,如果你达到80%的准确率,这是一个巨大的成功,而不是缺分。 |
![]() |
4
2
在我目前的工作中,我们有很多数据完整性问题。我们尝试在加载数据之前“清除”数据,以确保质量。我们目前使用Melissa数据删除姓名、地址和电子邮件。在加载之前,它可以很好地实现标准化。这样,我们就可以避免重复的数据。 另外,SQL Server集成服务(我知道您使用的是Oracle)有一个组件,它对字符串进行“模糊”匹配,允许您找到一个接近匹配的组件,而不是直接的一对一匹配。这叫做模糊查找。基本上,它给你一个分数,告诉你两个输入有多接近一个匹配…然后,您可以设置阈值来告诉它将其视为一个匹配(即80%以内或其他任何匹配)需要多近。 过去,我也用过 SOUNDEX 以确定名称在确定重复项时是否相似。有很多Soundex实现。 祝你好运。 |
![]() |
5
2
您要解决的问题的术语是“记录链接”。 我不能推荐特定的工具。搜索“记录链接软件”或“合并清除软件”,通过一些研究,你应该能够找到满足你需要的东西。 我找到了一个开源解决方案 Febrl . 此工具最初是为生物医学研究领域开发的,它解释了“可自由扩展的生物医学记录链接”的名称。您可以在此处阅读更多信息: "Parallel Large Scale Techniques for High-Performance Record Linkage" 有关记录链接中涉及的问题/解决方案的良好概述,请阅读 "Merge/Purge and Duplicate Detection" . |
![]() |
6
1
每个主要供应商都有自己的解决方案。Oracle、IBM、SAS Dataflux等都声称自己是最好的。 独立验证评估: 澳大利亚柯廷大学数据链接中心进行的一项研究模拟了440万条记录的匹配。确定供应商的准确度(找到的匹配数与可用的匹配数)。错误匹配数)
这是我们能找到的最好的独立评估,非常彻底。 |
![]() |
7
0
我在一家保险公司的会员登记表上做了类似的事情。幸运的是,我们有SSN来确定主要成员,但我必须决定依赖项是新的还是现有的(仅按名称)。我尝试了Soundex算法作为解决方案的一部分,但它似乎不符合要求,因为它似乎将太多不同的名字映射到同一个事物上(许多家庭倾向于用相似的名字给他们的孩子命名)。最后,我用(我想)家属名字的前四个字母作为唯一的标识符,并称之为“够好的”。我不知道如何处理乔治·福尔曼的家人:—) |
![]() |
8
0
我已经看到了dataflux的实际应用,根据我们的“star”数据分析师的说法,它是他发现的最准确的“集群”工具(如dataflux所称),用于链接人和公司的名称。不过,它相当贵。 |
![]() |
9
0
|
![]() |
10
0
我用过 dataladder.com 对于一个大的名字集。他们做了一项很棒的工作,用非常不同的拼写匹配不同的数据库,并剪断了许多重复的数据库。 |
![]() |
Joan · 基于多个panda列的唯一值进行分组 3 年前 |
![]() |
suptagni · 如何删除数据帧中任何行的重复单元格? 3 年前 |
![]() |
anwwwar · 我需要一种方法,只有在两列同时出现时才能找到重复项 3 年前 |
![]() |
Ujjawal Bhandari · 不区分大小写唯一保留原始[重复] 3 年前 |
![]() |
NoBullMan · SQL查询-删除列值重复的行 7 年前 |
![]() |
Nicholas Koskowski · 删除重复的用户元 7 年前 |