代码之家  ›  专栏  ›  技术社区  ›  Tobias

scrapy-不明白这个json是从哪里来的

  •  -1
  • Tobias  · 技术社区  · 7 年前


    [
     "[\"data:image/gif;base64,R0lGODdhAQABAPAAA///wAAACwAAAAAAQABAEACAkQBADs=\"]",
     "[\"https://tobier.de/media/2018/06/logo2-1.png\"]",
     "[\"data:image/gif;base64,R0lGODdhAQABAPAAAP///wAAACwAAAAAAQABAEACAkQBADs=\"]",
     "[\"https://tobier.de/media/2018/07/12548893_1089313591090351_8553746080250989501_n.jpg\"]",
     "[\"data:image/gif;base64,R0lGODdhAQABAPAAAP///wAAACwAAAAAAQABAEACAkQBADs=\"]",
     "[\"https://tobier.de/media/2018/07/16729432_1368587256496315_1586875734109631011_n.jpg\"]"
    ]
    

    我的问题是: 有什么问题 "data:image/gif..."

    我的图像Python代码:

    def getImages(self, response):
        images = response.xpath('//img')
        imagesWithout = []
        for img in images:
            alt = img.xpath('./@alt').extract()
            if not alt:
               imagesWithout.append( img.xpath('./@src').extract() )
        return json.dumps(imagesWithout)
    

    编辑: 爬在地上 Website

    2 回复  |  直到 7 年前
        1
  •  0
  •   Bentaye    7 年前

    view-source:https://tobier.de/wordpress-custom-post-type/
    

    <img class="figure-img img-fluid rounded" src="data:image/gif;base64,R0lGODdhAQABAPAAAP///wAAACwAAAAAAQABAEACAkQBADs=" data-lazy-src="https://tobier.de/media/2018/07/wordpress-custom-post-type-1.png" alt="wordpress custom post type" itemprop="contentUrl"/>
    

    这是json中的第一个。

    可能是一些特定于Wordpress的图片。

        2
  •  -1
  •   Ilia Gilmijarow    7 年前

    不熟悉的src标记是一个详细描述的技巧 here

    我去了网页链接,发现至少有一个img的数据与基地64

    <span class="ez-toc-section" id="Permalinks_aktualisieren">Permalinks aktualisieren</span></h3><p>Erstellen wir im Backend nun einen Mitarbeiter, sehen wir unter dem Title den Permalink. Wie konfiguriert, wird zwischen der Domain und dem Mitarbeiter-Name nun der Slug &#8222;mitarbeiter&#8220; ausgegeben.</p><figure class="figure" itemscope itemtype="http://schema.org/ImageObject"> <img class="figure-img img-fluid rounded" src="data:image/gif;base64,R0lGODdhAQABAPAAAP///wAAACwAAAAAAQABAEACAkQBADs=" data-lazy-src="https://tobier.de/media/2018/07/permalink.png" alt="post type permalink" itemprop="contentUrl"/>

    推荐文章