|
|
1
1
我记得以前做过一个简单的HTML解析插件。我不知道我是怎么做到的,但这里是基本点。我们想做的是:
我所做的只是找到HTML解析插件类(我很难找到实际的类名),并扩展它。然后重写解析函数。新函数应该调用
关于你的第二个问题,我不清楚你在问什么。我想你是在问当dom格式不好时会发生什么?我只需要深入研究nutch代码(http://grepcode.com/snapshot/repo1.maven.org/maven2/org.apache.nutch/nutch/1.3/)并找出解析是如何完成的(我确信他们使用库来完成)。这应该能告诉你更多关于事物是贪婪的,还是什么。 有问题就喊。 |
|
|
user3127554 · Powershell HTML未格式化 8 年前 |
|
|
user1922364 · 从一个页面获取所有链接 8 年前 |
|
|
GonzaloXavier · 提取R中<option>标记的内容 8 年前 |
|
|
Shafizadeh · 为什么查询与DOM不匹配? 8 年前 |
|
|
Athapali · 如何使用jquery获取变量中元素的文本? 9 年前 |
|
|
Mona G · html中响应头的jmeter正则表达式提取器 9 年前 |
|
|
Paul · Jsoup-从元素中提取html 9 年前 |