![]() |
1
13
不应该使用XML分析器来分析HTML。使用HTML分析器。 请注意,以下是完全有效的HTML(XML解析器可能会阻塞它):
CPAN上有许多特定于任务的(除了通用的)HTML解析器。它们非常适合我处理各种各样的非常混乱(大多数时候是无效的)HTML。 如果你能详细说明你要解决的问题,就有可能给出具体的建议。 也有 HTML::TreeBuilder::XPath 其中使用 HTML::Parser 将文档解析为树,然后允许您使用xpath查询它。我从来没有用过,但看到兰德尔·施瓦茨的 HTML Scraping with XPath . 给定上面的HTML文件,下面的简短脚本:
输出: C:\Temp> z cell 1 cell 2 cell 3 cell 4 这里的关键点是,该文档是由HTML解析器作为HTML文档来解析的(尽管我们能够使用xpath查询它)。 |
![]() |
2
1
除非你想 learn more about wheels 使用 HTML Tidy 代码。 |
![]() |
3
1
你可以这样重新表述这个问题:
现在问题可能更明显了:这不容易。如果它是真正的格式错误的HTML,那么您可能需要手工完成这项工作,直到它可以被输入到HTML解析器中。然后,您可以使用这里介绍的任何其他模块来完成这项工作。虽然您不太可能通过编程将原始HTML转换为严格有效的XHTML。 |
![]() |
code-geek · Jquery根据单选按钮选择隐藏或显示文本字段 7 月前 |
|
Jamie · 在CSS链接的文件名中添加Jinja占位符 7 月前 |
![]() |
ptownbro · 重叠分区标签,同时保持以下所有分区和内容就位 8 月前 |
![]() |
john Rizzo · 按钮背景颜色、悬停和活动状态存在问题 8 月前 |