scrapyd及gerapy的使用及docker-compse部署

本文介绍: scrapyd是一个用于部署和运行 scrapy 爬虫的程序，它允许你通过JSON API(也即是web api)来部署爬虫项目和控制爬虫运行，scrapyd是一个守护进程，监听爬虫的运行和请求，然后启动进程来执行它们scrapyd的安装 scrapy d 服务端: pip install scrapy d scrapy d 客户端: pip install scrapy d–client 启动 scrapyd服务在scrapy 项目路径下启动 scrapyd的命令：sudo s cra pyd 或 s cra pyd。

s cra pyd是一个用于部署和运行 s cra py 爬虫的程序，它允许你通过JSON API(也即是web api)来部署爬虫项目和控制爬虫运行，scrapyd是一个守护进程，监听爬虫的运行和请求，然后启动进程来执行它们

scrapyd服务端: pip install scrapyd
scrapyd客户端: pip install scrapyd-client

在sc r apy项目路径下启动 sc r apyd的命令：sudo scrapyd 或 scrapyd。启动之后就可以打开本地运行的scrapyd，浏览器中访问本地6800端口可以查看scrapyd的监控界面
在这里插入图片描述

在这里插入图片描述

同样在scrapy项目路径下执行：

scrapyd-deploy 部署名(配置文件中设置的名称) -p 项目名称
以上面配置文件为例子：scrapyd-deploy Baidu -p my_spider

在这里插入图片描述

启动项目：

curl http://localhost:6800/schedule.json -d project=project_name -d spider=spider_name

这里就可以看到使用 web api 调度有多么麻烦了，于是引入下面的gerapy

Gerapy 是一款分布式爬虫管理框架，支持 Pyth on 3，基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Dja n go、Vue.js 开发，Gerapy 可以帮助我们：

通俗的解释：Gerapy 的最主要的目标是将 Scrapyd 的命令行操作转化为直观的 Web 点击操作。它提供了一个可视化的 We b 界面，让用户通过界面轻松地进行 Scrapy 项目的管理、监控和部署，而不必直接使用 Scrapyd 的命令行

 pip3 install gerapy

Usage: gerapy init [--folder=] gerapy migrate gerapy createsuperuser gerapy runserver []`

执行完该命令之后会在当前目录下生成一个gerapy文件夹，进入该文件夹，会找到一个名为projects的文件夹

 gerapy migrate

在这里插入图片描述

点击部署点击部署按钮进行打包和部署，在右下角我们可以输入打包时的描述信息，类似于 Git 的 commit 信息，然后点击打包按钮，即可发现 Gerapy 会提示打包成功，同时在左侧显示打包的结果和打包名称。

version: '3'

services:
  scrapyd:
    container_name: scrapyd
    image: germey/scrapyd:latest
    #network_mode: "host"
    ports:
         - "6800:6800"
    volumes:
         - /opt/docker/scrapyd_gerapy/scrapyd/app:/app
    restart: always

  gerapy:
    container_name: gerapy
    image: germey/gerapy:latest
    #environment:
    # - GERAPY_PORT=8001（有大佬知道如何覆盖镜像里的默认端口麻烦告知一下）
        #network_mode: "host"
    ports:
             - "8001:8000"
    volumes:
      - /opt/docker/scrapyd_gerapy/gerapy:/app/gerapy
    depends_on:
      - scrapyd
    restart: always