![]() |
1
2
你可以在这里找到HTML解析器的集合 HTML Parsers . 我不太记得了,但我认为tagsoup解析文件时没有应用更正… |
![]() |
2
2
我认为 Jericho HTML Parser 可以提供至少一个核心需求(如果输入文档无效,HTML解析应该失败)。 告诉 如果有不匹配的标签或其他有害的HTML缺陷,您可以根据此信息选择失败。 尝试在这个jericho格式演示中键入无效的html,并注意页面底部的“解析器日志”: http://jerichohtmlparser.appspot.com/samples/FormatSource.jsp 是的,这个 是 做标签整理,但至少 告诉 你可以通过设置NET.HTMLPARSer.JeijHo.Logg来获取这些信息(例如 WriterLogger 或者你自己创建的更具体的东西),然后根据哪些错误被注销继续。这是一个小例子:
在上面的示例中,使用字符串调用记录器的info()方法:'
杰里科位于马文中心,这是个好兆头: http://mvnrepository.com/artifact/net.htmlparser.jericho/jericho-html 祝你好运! |
![]() |
3
1
你可以检查一下 http://lobobrowser.org/cobra.jsp 。他们有一个纯Java Web浏览器(LoBO)实现。它们分别提取了解析器组件(cobra)以供使用。老实说,我不确定它是否能满足您的“不整理”要求,但它可能值得一看。当我在野外探索纯Java网页浏览器时,我跑过去了。 |
![]() |
4
0
您可以尝试对JavaX.SWIG.T.HTML.PARSer.PARSE进行子类实现并实现HouxXXX()方法。它似乎没有试图修复xml。更多见 the API |
|
user29759326 · 如何返回递归函数中的最后一个值? 6 月前 |
|
malife89 · 将java中的字符串读取为正确的日期格式 6 月前 |
![]() |
Tim · 在java中,有没有更快的方法将字节数组写入文件? 6 月前 |
![]() |
rudraraj · java中未声明最终变量 6 月前 |
![]() |
Bala Ji · 以下BFS的实施效率如何? 6 月前 |