代码之家  ›  专栏  ›  技术社区  ›  David

“学习”过滤引擎

  •  1
  • David  · 技术社区  · 16 年前

    有没有任何“智能”或“学习”引擎,能够识别文本中的“邪恶”短语(可能有点像学习垃圾过滤器…例如,在雷鸟中使用?)

    例如,如果我想用邮件地址筛选文本:

    asdasd asd as d dgfdgfdgfdg sadasd(at)asfsdf.com
    

    起初,该工具不会将此识别为电子邮件地址…但是,如果用户多次“教学”(点击“文本包含邮件地址”-例如按钮)该工具,包含短语“xxxxx(at)xxxxx.xx”的文本是可疑的,它“学习”应该在将来自动标记这些文本…

    问题:市场上有类似的东西吗?我发现了一些libs(如spamasasin等),但这些都是专门针对电子邮件的…

    2 回复  |  直到 16 年前
        1
  •  2
  •   Community Mohan Dere    8 年前

    你所说的一般概念是 Bayesian filter . 也许这对你的搜索有帮助。

    编辑:其他几个例子:

        2
  •  1
  •   David    16 年前

    是的,这似乎是个好的开始: http://nbayes.codeplex.com/ (贝叶斯算法的实现)