代码之家 › 专栏 › 技术社区 › Andrew

beatifulsoup未返回页面的完整HTML

request beautifulsoup python

Andrew · 技术社区 · 7 年前

这是我剧本的一部分

keyword = "men jeans".replace(' ', '+')

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.5; en-US; rv:1.9.1b3) Gecko/20090305 Firefox/3.1b3 GTB5'}
url = "https://www.amazon.com/s/field-keywords={}".format(keyword)

request = requests.session()
req = request.get(url, headers = headers)
sleep(3)
soup = BeautifulSoup(req.content, 'html.parser')
print(soup)

2 回复 | 直到 7 年前

SIM 7 年前

from selenium import webdriver
from bs4 import BeautifulSoup

def fetch_item(driver,keyword):
    driver.get(url.format(keyword.replace(" ", "+")))
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    for items in soup.select("[id^='result_']"):
        try:
            name = items.select_one("h2").text
        except AttributeError: name = ""
        print(name)

if __name__ == '__main__':
    url = "https://www.amazon.com/s/field-keywords={}"
    driver = webdriver.Chrome()
    try:
        fetch_item(driver,"men jeans")
    finally:
        driver.quit()

运行上述脚本后,您将得到56个名称或其他结果。

ThunderHorn 7 年前

import requests
from bs4 import BeautifulSoup

for page in range(1, 21):
    keyword = "red car".replace(' ', '+')
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.5; en-US; rv:1.9.1b3) Gecko/20090305 Firefox/3.1b3 GTB5'}
    url = "https://www.amazon.com/s/field-keywords=" + keyword + "?page=" + str(page)
    request = requests.session()
    req = request.get(url, headers=headers)
    soup = BeautifulSoup(req.content, 'html.parser')
    results = soup.findAll("li", {"class": "s-result-item"})

    for i in results:
        try:
            print(i.find("h2", {"class": "s-access-title"}).text.replace('[SPONSORED]', ''))

            print(i.find("span", {"class": "sx-price-large"}).text.replace("\n", ' '))

            print('*' * 20)
        except:
            pass

推荐文章

yash agarwal · Python Selenium-如何基于span标记内的文本提取元素?

3 年前

Amar · 漂亮汤错误:“NoneType”对象没有属性“find\u all”

3 年前

ihonestlydontKnow · Python(BeautifulSoup)仅1个结果

3 年前

ARH · 如何使用Selenium识别网站中使用的所有标签

3 年前

Kevin Rodgers Jr. · Python BeautifulSoup:在in select语句中排除其他标记

3 年前

Jensen Holm · 在非常大的字符串中查找链接时遇到问题

3 年前

koshiboto · 使用python(bs4)从段落中获取第一个不位于括号之间的常规链接

3 年前

LaddieMawery · Beautifulsoup获取嵌套跨元素时遇到问题

3 年前

Ventorro · Python和Web抓取的新手。抓取一个HTML表格——但是它并没有显示所有的列

3 年前

aphexlog · 正在尝试使用BeautifulSoup将新行附加到表体中的第一行

3 年前