![]() |
1
3
对于20000个单词或品牌,任何将每个单词与其他单词进行比较的方法,即具有二次复杂度O(n)的方法都可能太慢。对于20000人来说,这可能仍然是勉强可以接受的,但对于任何更大的数据集,它将很快崩溃。
相反,你可以试着从你的单词中提取一些“特征”,并据此对它们进行分组。我的第一个想法是用
stemmer
但既然你的话是名字而不是
真实的
这句话行不通。我不知道你的样本数据有多有代表性,但是你可以试着根据单词的组成部分,用
结果:
你也可以过滤掉一些
stop words
首先,就像
|
![]() |
2
2
尝试使用列表理解代替,它比
不幸的是,用这种方法你不能
将循环转换为列表理解非常简单,考虑一下您有这样一个循环:
列表理解变成:
|
![]() |
feasega · 聚合物模拟-2个节点之间的最短路线,适用于所有节点 7 月前 |
![]() |
Alisa Petrova · 在有向图中更改一对顶点以创建循环 7 月前 |
![]() |
b39b332d · 使用C++标准库实现高效间隔存储 11 月前 |
![]() |
Paul C · 在维基百科上,将二叉搜索树转换为排序链表的算法是否存在错误? 11 月前 |
![]() |
ABGR · 二叉树的直径——当最长路径不通过根时的失败案例 12 月前 |
![]() |
EpicAshman · 数独棋盘程序中同一列和同一行出现两次的数字 1 年前 |