|
0
|
| Hafiz Muhammad Shafiq · 技术社区 · 8 年前 |
|
|
1
2
Nutch生成器实际上不是Nutch中的扩展点,因此您无法编写插件来自定义它。然而,没有什么可以阻止您用自己的逻辑编写自己的生成器。
您需要调整
发电机使用
顺便说一句,这并不完全罕见,我似乎有些客户需要定制发电机。 |
|
2
2
正如Jorge所建议的那样,您可以编写一个scoringfilter,根据您自己的逻辑为页面分配分数,并在生成步骤中基于此进行过滤。或者,如果碰巧可以仅基于URL来确定选择规则,则可以使用定制的URL规范化器,该规范化器与生成范围(或任何值)一起使用,该范围将URL重写为URL过滤器随后丢弃的内容。作为生成步骤的一部分,您需要激活过滤。这是一个丑陋的黑客。 坚果2。x真的很笨拙,我不确定你能不能基于原始表的过滤器创建一个表的副本。 你用什么Gora后端? StormCrawler在这方面更加灵活,我们最近添加了 a mechanism for filtering URLs at the spout level ,这正是你需要的。你可以在Nutch 2中做类似的事情。但这可能意味着改变戈拉的情况。 |