代码之家 › 专栏 › 技术社区 › David

“学习”过滤引擎

search-engine filter

David · 技术社区 · 16 年前

有没有任何“智能”或“学习”引擎,能够识别文本中的“邪恶”短语(可能有点像学习垃圾过滤器…例如,在雷鸟中使用?)

例如,如果我想用邮件地址筛选文本:

asdasd asd as d dgfdgfdgfdg sadasd(at)asfsdf.com

起初,该工具不会将此识别为电子邮件地址…但是,如果用户多次“教学”(点击“文本包含邮件地址”-例如按钮)该工具,包含短语“xxxxx(at)xxxxx.xx”的文本是可疑的,它“学习”应该在将来自动标记这些文本…

问题:市场上有类似的东西吗?我发现了一些libs(如spamasasin等),但这些都是专门针对电子邮件的…

2 回复 | 直到 16 年前

Community Mohan Dere 8 年前

你所说的一般概念是 Bayesian filter . 也许这对你的搜索有帮助。

编辑:其他几个例子:

David 16 年前

是的,这似乎是个好的开始: http://nbayes.codeplex.com/ (贝叶斯算法的实现)

推荐文章

bairog · 从按属性筛选的对象数组字典中创建值数组

9 月前

D_chez12 · 如果对象键值为空,则过滤掉数组中的对象

11 月前

Jennifer Crosby · 查找pandas数据框列(段落或列表)包含另一个列表中任何值的行

1 年前

Sammi23 · 列表中的过滤功能

1 年前

Mehdi · 从数组中获取元素的索引,当从另一个数组中减去具有相同索引的元素时,该索引为负数

1 年前

Matt Williamson · Get CimInstance筛选器中的Or子句

1 年前

DN98024 · 如何在R中过滤掉其他所有内容的同时保持值的首次出现?

1 年前

Mithilesh choubey · 基于值从JavaScript中的嵌套JSON数组对象中筛选/删除数组对象

1 年前

jaundiced · YQ-如果匹配列表中的至少一个元素,如何按字段值筛选数组

1 年前

ForEverNewbie · 筛选时间段在另一行时间段内的行

1 年前