|
|
1
34
在任何事情发生之前,
尝试保留输入文本中的“边界”信息。
不使用外部数据
(输入文本除外),通过在
文本的有向图和三角图
(2和3个连续单词的顺序)。然后[大多数]具有大量实例的序列很可能是您要查找的“表达式/短语”类型。
较好的方法 (可能更昂贵、处理方面和设计/投资方面),将使用与输入文本的域和/或国家语言相关的额外“优先级”。
[抱歉,现在必须走了(另外还想从你的具体目标等方面了解更多细节)。稍后我将尝试提供更多细节和提示] [顺便说一句,我想插在这里 Jonathan Feinberg和Dervin Thunk回应 从这篇文章,因为他们提供了优秀的指针,在方法和工具方面的那种手头的任务。特别地, NTLK 和 巨蟒 提供一个优秀的实验框架] |
|
|
2
11
我将从一个精彩的章节开始, Peter Norvig 在O'Reilly的书中 Beautiful Data . 他提供了您需要的NGRAM数据,以及漂亮的python代码(可以按原样解决您的问题,或者进行一些修改)。 on his personal web site . |
|
|
3
8
听起来你在找 collocation extraction . Manning and Schütze 奉献一个 chapter 关于这个话题,解释和评估维基百科文章中提到的“建议的公式”。 我不能把整章都写进这个回答中;希望 their links 会有帮助的。( NSP 听起来特别贴切。)NLTK有一个 collocations module 同样,曼宁和sch_¼tze也没有提及,因为他们的书早于此。 到目前为止,其他的回答都涉及到统计语言处理和n-gram,搭配是一个特定的副标题。 |
|
|
4
0
为单词做一个矩阵。然后,如果有两个连续的单词,则在相应的单元格中添加一个。
这将为您提供两个连续单词的值。 这个词你也可以用三个词。注意这需要O(n^3)内存。 还可以使用堆来存储数据,如:
|
|
|
feasega · 聚合物模拟-2个节点之间的最短路线,适用于所有节点 1 年前 |
|
|
Alisa Petrova · 在有向图中更改一对顶点以创建循环 1 年前 |
|
|
b39b332d · 使用C++标准库实现高效间隔存储 1 年前 |
|
ABGR · 二叉树的直径——当最长路径不通过根时的失败案例 1 年前 |
|
|
EpicAshman · 数独棋盘程序中同一列和同一行出现两次的数字 1 年前 |