代码之家 › 专栏 › 技术社区 › showkey

如何让我的scrapy读取同一目录下的文件?

scrapy python

showkey · 技术社区 · 6 年前

urls.txt 包含要下载的所有url。

ââspiders
â  â  stockInfo.py
â  â  urls.txt
â  â  __init__.py

stockInfo.py 这是我的刮擦文件。

import scrapy
import os
import re

class QuotesSpider(scrapy.Spider):
    name = "stockInfo"
    projectFile = r"d:/toturial/toturial/spiders/urls.txt"
    with open(projectFile,"r") as f:
        urls = f.readlines()
    start_urls = [url.strip() for url in urls]

    def parse(self, response):
        pass

我已经测试了上面的可以使用以下命令在本地pc端成功运行:

scrapy crawl  stockInfo

现在,我将项目部署到远程端 scrapy hub

pip install shub
shub login
API key: xxxxxxxxxxxxxxxxx
shub deploy 380020

它遇到了麻烦:

IOError: [Errno 2] No such file or directory: 'd:/toturial/toturial/spiders/urls.txt'

如何在部署我的 scrapy 进入 hub 重写是有用的

像

奇怪的是,重写是没有用的

像

projectFile=“./url.txt”

何时在远程端运行它 .

0 回复 | 直到 6 年前

showkey 6 年前

1.添加新目录并移动 urls.txt 在里面。
添加新目录的步骤 resources ,然后保存 url.txt 在里面。
我的新目录树如下所示。

tutorial
ââtutorial
â  ââresources
|     |--urls.txt
â  ââspiders
|     |--stockInfo.py

2.重写setup.py,如下所示。

from setuptools import setup, find_packages

setup(
    name='tutorial',
    version='1.0',
    packages=find_packages(),
    package_data={
        'tutorial': ['resources/*.txt']
    },
    entry_points={
        'scrapy': ['settings = tutorial.settings']
    },
    zip_safe=False,
)

3.重写 stockInfo.py 如下。

import scrapy
import os 
import re
import pkgutil
class QuotesSpider(scrapy.Spider):
    name = "stockInfo"
    data = pkgutil.get_data("tutorial", "resources/urls.txt")
    data = data.decode()
    start_urls = data.split("\r\n")

    def parse(self, response):
        pass

推荐文章

Henry Dashwood · 使用AsyncioSelectorReactor进行scratch和pytest

1 年前

Adam Mac · 刮擦域中的所有页面

1 年前

Rodolfo · Scrapy响应返回一个空数组

2 年前

Nimo Db · 如何在python的scrapy选择器中只获取文本

2 年前

Vaidas · 当下一页链接没有产生任何结果时,剧烈的无限滚动

2 年前

Ice Bear · Shopee API获取产品数据似乎不再有效(以前有效)

2 年前

galih · 有碎屑的外壳很好用,但不适合有碎屑的爬行

2 年前

user9260781 · 如何获取在检查中可见但在页面源中不可见的剪贴数据

2 年前