![]() |
1
18
尝试 Jericho . 这个 TextExtractor 听上去这门课会满足你的要求。很抱歉,由于我是新用户,无法发布第二个链接,但向下滚动一点主页,就会有一个链接指向它。 |
![]() |
2
3
HtmlUnit 它甚至在处理完javascript/ajax之后显示页面。 |
![]() |
3
2
这个 bliki 发动机可以分两步完成此操作。见 info.bliki.wiki / Home
它将是大约7-8行代码,如下所示:
jsoup可以做得更简单:
但结果是您会丢失所有段落格式——不会有任何新行。 |
![]() |
4
0
我用 TagSoup 它可用于多种语言,并对“在野外”找到的HTML做得非常好。它生成一个清理过的HTML或XML版本,然后您可以使用一些DOM/SAX解析器进行处理。 |
![]() |
5
-1
我已经用过 Apache Commons Lang 换个方向。但看起来它可以通过 StringEscapeUtils . |
|
user29759326 · 如何返回递归函数中的最后一个值? 3 月前 |
|
malife89 · 将java中的字符串读取为正确的日期格式 4 月前 |
![]() |
Tim · 在java中,有没有更快的方法将字节数组写入文件? 4 月前 |
![]() |
rudraraj · java中未声明最终变量 4 月前 |
![]() |
Bala Ji · 以下BFS的实施效率如何? 4 月前 |