|
|
1
1
为什么不让google/bing为您编制索引,然后使用他们提供的site:feature来使用它呢? 如果这不是一个选项,你可能必须有一个自己的“拼写检查器”(要么实现自己,要么使用现有的),这是在你的数据训练。注意拼写检查是不确定的(例如:latel,它是label吗?以后?)。您只能根据站点中的实际数据进行“最佳”猜测。 在概率模型中,你们可以“训练”你们的拼写猜测者/检查者来想出一个“最佳”猜测。 下一页似乎很有用。它有一个关于如何自己写一个的描述,也有很好的链接(包括一篇调查报告)和不同语言实现的链接: |
|
|
2
0
有两种解决方法:
|
|
|
3
0
如果你想推出你自己的,首先你需要过滤掉噪音词之前,你甚至开始搜索,因为这可能只是强加给你的数据库不必要的负荷。“好书”应该和搜索“好书”或“他的好书”或“书评好坏”一样吗?所以很明显,“a”、“the”、“an”、“and”等根本不符合“有用的”搜索关键字的条件。一旦你把“噪音”过滤掉,你就开始真正的搜索。同样,您应该考虑数据库性能。搜索动态数据库还是预处理数据库是明智之举?找出过滤搜索数据中噪声词的方法。 |
|
John D · 需要为NULL或NOT NULL的WHERE子句 1 年前 |
|
Marc Guillot · 记录值时忽略冲突 1 年前 |
|
|
Fachry Dzaky · 正确使用ROW_NUMBER 1 年前 |
|
|
TriumphTruth · 从满足特定条件的数据集中选择1行 1 年前 |