|
1
2
由于您希望获取大量数据,最好使用直接HTTP请求获取,而不是使用Selenium导航到每个页面。。。 尝试遍历所有页面并按如下方式获取所需数据
P、 美国支票
this ticket
能够将代理与一起使用
|
|
|
2
1
我制作了一个方法,可以打印所有页面中的项目列表,并递归调用它,在方法的末尾,我单击next按钮。我没有给出休息和退出的条件,我希望你能应付。“list\u all\u items”方法是执行所需操作的逻辑。 还取消了对我已注释的代理部分的注释。 |
|
|
3
1
让我分几个步骤来解决这个问题,这样您就知道这里需要做什么了。 首先,您需要从一个页面获取所有产品。 然后,您需要获取所有页面,并在每个页面上重复第一步。 现在我不懂Python,所以我将尽可能多地以通用的方式来实现这一点。 首先,需要创建一个值为0的int。 之后,您需要获得页数。为此,请检查:
然后需要创建一个循环。在循环中,您将在设置值0的地方增加int,最大值为400。 所以现在,每当int不等于400时,您的循环将单击下一页并获取所有产品,然后执行您希望它执行的操作。这将导致如下结果:
总之,您要做的第一件事是确定页面上有多少页。 然后,您将从浏览器返回的字符串中创建一个int。 然后创建一个值为0的int,每次迭代循环时,都将使用该int检查是否达到最大页数。 之后,您将首先从页面中获取所有产品(如果您不这样做,它将跳过第一页)。 最后,点击下一页按钮。 为了完成它,你需要用++得到一个增量,所以在每次循环之后,它会增加1。 |