代码之家 › 专栏 › 技术社区 › Chris Adragna

数据清理,从ALLCAPS到Title Case的后期转换

grep text sql

Chris Adragna · 技术社区 · 15 年前

麦克唐纳,博士,注册会计师,III级

有人知道一个现有的脚本可以清除所有常见的问题词吗?当然,它仍然会留下一些错误(不太常见的名称,拼写类似CamelCase,即“MacDonalz”)。

有一个线程提出了一个相关的问题,有时触及这个问题,但没有具体解决这个问题。你可以在这里看到:

SQL Server: Make all UPPER case to Proper Case/Title Case

2 回复 | 直到 8 年前

Mark Baker 15 年前

不知道这是否有用

private static function ucNames($surname) {
//  ( O\' | \- | Ma?c | Fitz )  # attempt to match Irish, Scottish and double-barrelled surnames
    $replaceValue = ucwords($surname);
    return preg_replace('/
                        (?: ^ | \\b )       # assertion: beginning of string or a word boundary
                        ( O\' | \- | Ma?c | Fitz )  # attempt to match Irish, Scottish and double-barrelled surnames
                        ( [^\W\d_] )        # match next char; we exclude digits and _ from \w
                        /xe',
                        "'\$1' . strtoupper('\$2')",
                        $replaceValue);
}

Chris Adragna 15 年前

以下是我一直在寻找的答案:

我能够使用两个应用程序来解决我的问题。

事物,将所有大写转换为混合大写在这个过程中弄脏数据,留下标题如CPA、MD、III等; 像麦当劳这样的驼色案例名称。
Personator:我使用Personator将全名字段分为前缀、名字、中间名、姓氏和后缀。老实说,这还远远不够完美,但我给出的数据却相当具有挑战性(通常没有空格分隔中间名和后缀)。这个应用程序还可以做很多其他有用的事情,包括为大多数名字指定性别。它也是一个可以调用的API。

http://www.melissadata.com/dqt/index.htm

对我来说,Melissa数据应用程序完成了大部分繁重的工作,剩余的脏数据可以通过报告左x或右x计数在SQL中进行识别和修复--脏数据通常具有最少的唯一性,模式很容易发现和修复。

推荐文章

wqyutv · 当找不到文件时,任何破坏错误的东西都不会出现,我该怎么解决这个问题?

8 月前

user28928120 · 在textarea中选择文本,通过packspace/delete删除它,为另一个元素添加css

9 月前

Earlien · 将解析文本中的加号作为ggplot2运算符进行求值

1 年前

user54097 · 滚动菜单项上的导航栏动画文本徽标

1 年前

Dawken · 从文本中提取字符串表情符号

1 年前

stack programming · 如何将损坏的文本恢复为阿拉伯语

1 年前

user25445882 · ggplot2文本位于上边距,翻转坐标

1 年前

Alexis Mora · 我在python中的reg ex与使用re.serach()不匹配

1 年前

jlklein · 带有geom_textpath()的多层圆环图:如何删除黑色连接线?

1 年前

Taylan Morcol · 替换字符的所有实例,但只能在匹配的字符串中替换

1 年前