|
1
20
确保使用
|
|
2
10
我用pyparsing处理了许多HTML页面抓取项目。这是介于BeautifulSoup和完整的HTML解析器之间的中间地带,也是正则表达式的低级方法(这是疯狂的做法)。 一切 在页面上,因为您感兴趣的区域之外的一些有问题的HTML可能会抛出一个全面的HTML解析器。
这会把
Pyparsing并不是解决这个问题的万无一失的解决方案,但是通过向您公开解析过程,您可以更好地控制您特别感兴趣的HTML的哪些部分,对它们进行处理,并跳过其余部分。 |
|
|
3
5
|
|
4
4
如果你是刮内容,一个很好的方法来绕过恼人的细节是 sitescraper 包裹。它使用机器学习来确定要为您检索哪些内容。 从主页:
|
|
|
5
1
甚至在几年前,我试图为一个原始的蜘蛛型应用解析HTML,发现问题太难了。我怀疑写你自己的可能是纸上谈兵,虽然我们不可能是唯一有这个问题的人! |
|
|
code-geek · Jquery根据单选按钮选择隐藏或显示文本字段 8 月前 |
|
|
Jamie · 在CSS链接的文件名中添加Jinja占位符 8 月前 |
|
ptownbro · 重叠分区标签,同时保持以下所有分区和内容就位 8 月前 |
|
|
john Rizzo · 按钮背景颜色、悬停和活动状态存在问题 9 月前 |