|
|
1
4
我不知道XQuery,但在我看来它像一个XPATH表达式。如果是这样的话,那么有这么多的“/”操作符,看起来有点贵。 |
|
|
2
3
出于经理给出的原因,我会使用正则表达式,再加上一些(更具可移植性,外部程序员更容易遵循,等等)。 地方的 变化,而你的是脆弱的关于 全球的 变化。任何破坏他的东西都有可能破坏你的,但反之亦然。 最后,将slop/flex构建到他的解决方案中要容易得多(例如,如果您必须处理输入中的多个微小变化)。 |
|
|
4
1
我正在使用 BeautifulSoup 用于报废。 |
|
|
5
1
事实上,我发现CSS搜索表达式比两者都更容易阅读。在您选择的语言中可能至少存在一个库,它将解析页面并允许您编写CSS指令来定位特定元素。如果附近有一个合适的类或ID钩子,那么表达式就非常简单。否则,抓取看起来合适的元素并遍历它们以找到您需要的元素。 至于易碎品,它们都是易碎品。根据定义,屏幕抓取取决于该页面的作者,而不是大幅更改其布局。选择一个可读性强、以后易于更改的解决方案。 |
|
|
6
1
我相当喜欢这本书 HTML agility pack :结合XPath的表达能力,您可以容忍不符合XHTML的网页。 |
|
|
7
1
这是一个很好的选择。 当做 |
|
8
1
要处理html页面,最好使用HTMLAgilityPack(以及一些Linq代码)。这是解析所有元素和/或使用XPath进行直接搜索的好方法。在我看来,它比正则表达式更准确,更容易编程。以前我有点不愿意使用它,但它很容易添加到您的项目中,我认为这是处理html的de-factor标准。 http://htmlagilitypack.codeplex.com/ 祝你好运 |
|
|
NoUsername9 · 使用Apify和Puppeter抓取URL 6 年前 |
|
|
Alok Mishra · 如何自动点击“内容”按钮 8 年前 |
|
|
Ike · Python Selenium错误-当webdriver 8 年前 |
|
|
ilyas · 使用网站查询获取数据[已关闭] 8 年前 |