代码之家 › 专栏 › 技术社区 › shiteatlife

刮痕链接抽取器或规则不工作

scrapy-spider web-crawler scrapy python

0

shiteatlife · 技术社区 · 8 年前

我一直试图让Scrapy的LinkedExtractor工作,但没有结果。

from scrapy.spiders import Rule, CrawlSpider
from scrapy.linkextractors import LinkExtractor


class TestSpider(CrawlSpider):
    name = 'spi'
    allowed_domains = ['https://www.reddit.com/']
    start_urls = ['https://www.reddit.com/']

    rules = [
        Rule(LinkExtractor(allow=()),
             callback='detail', follow=True)
    ]

    def parse(self, response):
        print("parsed!")

    def detail(self, response):
        print('parsed detail!')

当我使用命令“scrapy craw spi”运行爬行器时:

2 回复 | 直到 8 年前

1

3

TomáÅ¡ Linhart 8 年前

如果您正在使用 CrawlSpider parse 方法,因为它将中断处理。阅读中的警告 documentation .

2

1

scriptso 8 年前

没有必要注释掉parse…但是更改为默认的parse\u项…或者任何你想要的东西!重点是,parse是一个已经在爬行爬行器中的逻辑函数。。

将来使用“genspider等”时试试“scrapy genspider-t crawl SPIDERNAME BASEURL(无http/s://www…..IE=site.com)”

推荐文章

Grevioos · 处理时出现刮键错误

8 年前

Xiaowei Cheng · 找不到td scrapyspider的xpath[已关闭]

8 年前

Teresa Salil · 使用scrapy时如何绕过“cookiewall”?

8 年前

KAs · Scrapy:通过cmdLine从同一个python进程运行多个spider失败

8 年前

TheM00s3 · 设置下载延迟时,刮擦行为会发生变化

8 年前

WebOrCode · 为什么在刮擦的文本是作为字符串在蜘蛛,但作为列表在管道?

8 年前

Amrit · 无法在运行scrapy spider的c中运行python脚本

8 年前

aleroot · 使用相同的爬行器分析详细信息页面和分页页面

8 年前

user7367694 · Scrapy项目错误:“未定义变量”,实际上我已经定义了这个变量

8 年前

Chris Jewell · 刮痧蜘蛛一遍又一遍地返回相同的元素

8 年前

关于移动版

代码之家 - 一站式码农服务社区

沪ICP备11025650号