代码之家 › 专栏 › 技术社区 › Niteya Shah

斯皮奇无法进入下一页

scrapy web-scraping python

Niteya Shah · 技术社区 · 6 年前

我正在学习如何使用刮擦,并试图使一个爬虫刮网站链接和文本从它。我的爬虫为 http://quotes.toscrape.com/ 和 http://books.toscrape.com/ 但不是为了现实生活 https://pypi.org/project/wikipedia/ 或者维基百科。我不明白是什么引起的。请帮帮我

霉菌

import scrapy
from scrapy.crawler import CrawlerRunner
from scrapy.utils.project import get_project_settings
from twisted.internet import reactor
from scrapy.utils.log import configure_logging

class firstSpider(scrapy.Spider):
    name = "htmlcrawler"
    start_urls = [
        'https://pypi.org/project/wikipedia/',
    ]

    def parse(self, response):
        val1=response.css("p.text::text").extract_first()
        val2=response.css("span.text::text").extract_first()
        val3=response.css("pre.text::text").extract_first()
        text = str("" if val3 is None else val3) + str("" if val2 is None else val2)+str("" if val1 is None else val1)
        NEXT_PAGE_SELECTOR = '.next a ::attr(href)'
        next_page = response.css(NEXT_PAGE_SELECTOR).extract_first()
        print(next_page)
        if next_page:
           next_page = response.urljoin(next_page)
           yield{'html':next_page,'text':text}
           yield scrapy.Request(next_page, callback=self.parse)

def run():
    settings = get_project_settings()
    settings.set('FEED_FORMAT', 'json')
    settings.set('FEED_URI', 'result.json')
    settings.set('Depth_Limit',60)
    settings.set('DOWNLOAD_DELAY',2)
    settings.set('DUPEFILTER_CLASS','scrapy.dupefilters.BaseDupeFilter')

    configure_logging()
    runner = CrawlerRunner(settings)
    runner.crawl(firstSpider)

    d = runner.join()
    d.addBoth(lambda _: reactor.stop())

    reactor.run()
if __name__=="__main__":
    run()

我正从氢原子中挣扎。

编辑

我更改了dupe filter类,并尝试从 https://blog.siliconstraits.vn/building-web-crawler-scrapy/ 但它仍然不起作用。

1 回复 | 直到 6 年前

Adelina 6 年前

它正在爬网,但由于您正在发送对同一页的请求而停止( #content ).

刮胡 DupeFilter 默认情况下启用。

推荐文章

Omega500 · AttributeError:ResultSet对象没有属性“find\u all”

2 年前

Christina Norwood · 我需要什么Python技术来获取二进制边距数据?

2 年前

mexicanRmy · Selenium Select不处理下拉元素

2 年前

yash agarwal · Python Selenium-如何基于span标记内的文本提取元素?

2 年前

Amar · 漂亮汤错误:“NoneType”对象没有属性“find\u all”

2 年前

Fadi Ft Ftena · 基于类名的Web抓取

3 年前

Amen Aziz · 熊猫中的数据被覆盖

3 年前

Amen Aziz · csv文件中的数据不提供任何信息

3 年前

Jensen Holm · 在非常大的字符串中查找链接时遇到问题

3 年前

Yungi Jeong · 在使用selenium进行web抓取后,我在csv文件中得到了奇怪的结果。。内容不是特定的内容,而是html代码

3 年前