![]() |
1
3
首先,假定数据库中的每个提交的权重为零。
接下来,我们拆分/标记当前提交的标题并删除停止字。
然后我们在数据库中查询包含上述标题的提交内容,并为每个结果添加权重:+2
你怎么认为?(温柔点!) |
![]() |
2
0
http://en.wikipedia.org/wiki/Mutual_information 这个想法是说,如果两个帖子分享了很多“不寻常”的词汇,那么他们很可能是在谈论同一个话题。为了检测不常见的单词,根据您的应用程序,您可以使用一个通用的频率表,或者更好的方法是,在您的帖子中的单词的范围内自己构建它(但是您需要有足够的频率表来提供相关的信息)。 我不会限制自己的标题和标签,但我会超重他们在研究。 这种想法在垃圾邮件过滤中很常见。不幸的是,我有时间做一个全面的回顾,但是快速的谷歌搜索可以得到: |
![]() |
CocoaMix86 · 变量超出作用域后未回收内存[重复] 5 月前 |
![]() |
Yousef Dawood · javascript中的不变性是什么意思 11 月前 |
![]() |
SkyBlue · Java Spring服务的内存/垃圾收集器问题 11 月前 |