代码之家 › 专栏 › 技术社区 › user9260781

如何获取在检查中可见但在页面源中不可见的剪贴数据

scrapy web-scraping selenium-webdriver python

user9260781 · 技术社区 · 3 年前

我想把所有三种颜色的名字都擦掉。它们在inspect中可见,但在source中不可见。所以我认为这是一个动态问题。Playwight不能在窗口中使用。所以我用了硒

SELENIUM_DRIVER_NAME = 'chrome'
SELENIUM_DRIVER_EXECUTABLE_PATH = 'F:\Projects\scrapspider\scrapeseams\chromedriver.exe'
SELENIUM_DRIVER_ARGUMENTS=['-headless']  # '--headless' if using chrome instead of firefox
DOWNLOADER_MIDDLEWARES = {
    'scrapy_selenium.SeleniumMiddleware': 800
}

在里面 settings.py

  def __init__(self):
        s = Service('F:\Projects\scrapspider\scrapeseams\chromedriver.exe')
        #driver = webdriver.Chrome(service=s)
       # settings = get_project_settings()
       # driver_path = settings['SELENIUM_DRIVER_EXECUTABLE_PATH']
        chrome_options = Options()
        chrome_options.add_argument('--headless')
        self.driver = webdriver.Chrome(service=s,options=chrome_options)
    def start_requests(self):
        
        yield SeleniumRequest(
            url = "https://in.seamsfriendly.com/collections/shorts",
            wait_time = 3,
            screenshot = True,
            callback = self.parse1,
            dont_filter = True
        )

这是我的蜘蛛文件。

但我搞错了- TypeError: WebDriver.__init__() got an unexpected keyword argument 'executable_path'

如何获取所有3个名称? 我得到了其他可用的信息,但没有这个。

使现代化 如果我不使用中间件,我不会得到错误(可执行文件),但也不会得到这3个名称

response.xpath("//div[@class='swatch-navigable-wrapper']/p/text()").getall()

这就是我想要得到的

0 回复 | 直到 3 年前

推荐文章

pebble unit · 如何检查以前缀开头、以后缀结尾的属性(不是属性值)

1 年前

sudoExclamationExclamation · 如何在CDP模式下在Selenium Base中设置窗口大小?

1 年前

Nikolai Romanov Belliovichksky · 我正试图使用python和selenium库创建一个web scraper

1 年前

Lukinator · 为什么这个使用Selenium的网络爬虫不返回整个网站?

1 年前

user28864790 · 无法使用Python中的Selenium Webdriver在Chrome中登录网站

1 年前

Tanguy MP · 我如何点击“完成”按钮?

1 年前

Stackie · 无法使用Selenium访问废料数据的链接

1 年前

Jonathan Odamah · 如何创建通用XPath来向Facebook组中的所有成员发送消息?

1 年前

Brk1145 · Selenium Xpath用于在span之间选择文本

1 年前

compx · 当尝试使用Selenium选择svg时,NoSuchElements存在

1 年前