代码之家  ›  专栏  ›  技术社区  ›  egervari

Java最好的HTML解析器是什么?[关闭]

  •  6
  • egervari  · 技术社区  · 16 年前

    假设我们必须使用Java,什么是最好的HTML解析器,它可以灵活地分析很多不同的HTML内容,也不需要大量的代码来执行复杂类型的解析。

    2 回复  |  直到 16 年前
        1
  •  10
  •   Community Mohan Dere    9 年前

    I would recommend Jsoup 为此。它有一个非常好的API,支持 jQuery like CSS selectors and non-verbose element iteration . 复制 this answer 例如,这里打印您自己的问题和所有回答者的姓名:

    URL url = new URL("https://stackoverflow.com/questions/3121136");
    Document document = Jsoup.parse(url, 3000);
    
    String question = document.select("#question .post-text").text();
    System.out.println("Question: " + question);
    
    Elements answerers = document.select("#answers .user-details a");
    for (Element answerer : answerers) {
        System.out.println("Answerer: " + answerer.text());
    }
    

    另一种选择是 XPath 但对于已经很好地掌握了CSS选择器的Web开发人员来说,JSoup更有用。

        2
  •  1
  •   VoodooChild    16 年前

    最好的办法就是把工作做好。

    有一个OpenSource tagsoup ,而且 jTidy