![]() |
1
3
首先,假定数据库中的每个提交的权重为零。
接下来,我们拆分/标记当前提交的标题并删除停止字。
然后我们在数据库中查询包含上述标题的提交内容,并为每个结果添加权重:+2
你怎么认为?(温柔点!) |
![]() |
2
0
http://en.wikipedia.org/wiki/Mutual_information 这个想法是说,如果两个帖子分享了很多“不寻常”的词汇,那么他们很可能是在谈论同一个话题。为了检测不常见的单词,根据您的应用程序,您可以使用一个通用的频率表,或者更好的方法是,在您的帖子中的单词的范围内自己构建它(但是您需要有足够的频率表来提供相关的信息)。 我不会限制自己的标题和标签,但我会超重他们在研究。 这种想法在垃圾邮件过滤中很常见。不幸的是,我有时间做一个全面的回顾,但是快速的谷歌搜索可以得到: |
![]() |
Sweepy Dodo · JSON lite的格式化 5 月前 |
![]() |
giantjenga · 优化整数向量到二进制向量的转换 7 月前 |
![]() |
Zegarek · Postgresql递归查询未提供预期结果 7 月前 |
![]() |
Joe · 为什么这两个查询之间的性能存在如此大的差异? 10 月前 |
![]() |
tic-toc-choc · 在`dplyr中高效使用列表进行过滤` 10 月前 |
![]() |
Mohan · 是否有一种更快的方法来编写代码,从1:N中提取许多随机样本? 11 月前 |
![]() |
user2980746 · 在C#字典中键入xyz对的最有效方法是什么? 11 月前 |