![]() |
1
2
你可以在这里找到HTML解析器的集合 HTML Parsers . 我不太记得了,但我认为tagsoup解析文件时没有应用更正… |
![]() |
2
2
我认为 Jericho HTML Parser 可以提供至少一个核心需求(如果输入文档无效,HTML解析应该失败)。 告诉 如果有不匹配的标签或其他有害的HTML缺陷,您可以根据此信息选择失败。 尝试在这个jericho格式演示中键入无效的html,并注意页面底部的“解析器日志”: http://jerichohtmlparser.appspot.com/samples/FormatSource.jsp 是的,这个 是 做标签整理,但至少 告诉 你可以通过设置NET.HTMLPARSer.JeijHo.Logg来获取这些信息(例如 WriterLogger 或者你自己创建的更具体的东西),然后根据哪些错误被注销继续。这是一个小例子:
在上面的示例中,使用字符串调用记录器的info()方法:'
杰里科位于马文中心,这是个好兆头: http://mvnrepository.com/artifact/net.htmlparser.jericho/jericho-html 祝你好运! |
![]() |
3
1
你可以检查一下 http://lobobrowser.org/cobra.jsp 。他们有一个纯Java Web浏览器(LoBO)实现。它们分别提取了解析器组件(cobra)以供使用。老实说,我不确定它是否能满足您的“不整理”要求,但它可能值得一看。当我在野外探索纯Java网页浏览器时,我跑过去了。 |
![]() |
4
0
您可以尝试对JavaX.SWIG.T.HTML.PARSer.PARSE进行子类实现并实现HouxXXX()方法。它似乎没有试图修复xml。更多见 the API |
![]() |
mike · 使用类似封送处理的编码器操纵HTML 7 年前 |
![]() |
ajaysheoran2323 · 如何使网站多语言[关闭] 7 年前 |
![]() |
Hanlei Price · 标记验证 7 年前 |
![]() |
curiousToKnow · 如何从xhtml获取文本 7 年前 |
![]() |
zinon · XHTML渲染生成空pdf文件 7 年前 |
![]() |
saurabh · 如何在一个页面中使用多个ajax日历 7 年前 |
![]() |
mac wac · AngularJS的内联模板不适用于XHTML 8 年前 |