![]() |
1
1
你能试着在一个小样本的表格上训练它,找出可能的拼写错误(使用split+levenshtein),然后在完整的表格上使用得到的单词列表吗? |
![]() |
2
1
再创建两个表,拼写和可能的拼写: --你可以找出类型
反对:这会很慢,需要设置。 答:不是那么慢,这应该是一次性的事情来分类和修复您的数据。一次设置,一次对每个传入行进行分类。 |
![]() |
3
1
是用tsql还是什么语言来实现? 你也许可以用正则表达式击中其中的大多数。 以下的一些变化
你要确保这不是大写敏感… |
![]() |
4
1
我可能会做这样的事——如果你能和莱文施坦一起逃脱一次的话——这里是 an amazing spellchecker implementation by Peter Norvig :
他提供了一套训练设备 here: http://norvig.com/big.txt 以下是示例输出:
在您的例子中,您可以将原始列复制到新列,但在复制时要通过拼写检查器。然后放一个
|