![]() |
1
3
对于20000个单词或品牌,任何将每个单词与其他单词进行比较的方法,即具有二次复杂度O(n)的方法都可能太慢。对于20000人来说,这可能仍然是勉强可以接受的,但对于任何更大的数据集,它将很快崩溃。
相反,你可以试着从你的单词中提取一些“特征”,并据此对它们进行分组。我的第一个想法是用
stemmer
但既然你的话是名字而不是
真实的
这句话行不通。我不知道你的样本数据有多有代表性,但是你可以试着根据单词的组成部分,用
结果:
你也可以过滤掉一些
stop words
首先,就像
|
![]() |
2
2
尝试使用列表理解代替,它比
不幸的是,用这种方法你不能
将循环转换为列表理解非常简单,考虑一下您有这样一个循环:
列表理解变成:
|