scrapy框架运行流程,如何建立scrapy爬虫项目

scrapy框架运行流程,如何建立scrapy爬虫项目,快速部署 Scrapy项目scrapyd的详细流程

本文主要介绍了Scrapy项目scrapyd快速部署的详细过程,对于大家来说非常详细,对于大家的学习或者工作都有一定的参考价值。有需要的朋友可以参考一下。

快速部署 Scrapy项目 scrapyd

向服务器安装垃圾邮件

皮普安装scrapyd-I https://pypi.tuna.tsinghua.edu.cn/simple

奔跑

scrappy d

修改远程访问的配置项目。

使用Ctrl+c来停止上一次运行。

在要运行scrapyd命令的路径下,创建一个新文件scrapyd.cnf

输入以下内容

[剪贴簿]

#网页和Json服务监听的IP地址默认为127.0.0.1(只有改成0.0.0才能在其他电脑上运行scrapyd后访问服务器)

bind_address=0.0.0.0

#端口监听,默认为6800

http_port=6800

#打开调试模式,默认情况下是关闭的。

调试=关闭

在客户端安装scrapyd-client

1.安装scrapy-client的命令如下

pip安装垃圾-客户端-I https://pypi.tuna.tsinghua.edu.cn/simple

配置Scrapy 项目

修改scrapy.cfg文件

1检查配置

scrapyd-deploy-l

将scrapy项目发布到scrapyd所在的服务器上(此时爬虫没有运行)

# scrapyd-部署目标-p项目-版本版本

# taget:是之前配置文件中部署后的目标名称,比如ubuntu1。

# project:可以随意定义,建议和scrapy爬虫项目同名。

# version:如果不写自定义版本号,默认为当前时间戳,一般不写。

部署ubuntu-1 -p豆瓣

注意

不要把无关的py文件放在爬虫目录里。放无关的py文件会导致发布失败,但是爬虫发布成功后会在当前目录下生成一个setup.py文件,可以删除。

4.发送命令运行crawler。

curl http://10 . 211 . 55 . 5:6800/schedule . JSON-d project=douban-d spider=top 250

停止爬行

curl http://IP:6800/cancel . JSON-d project=项目名称-d job=任务的id值

curl http://10 . 211 . 55 . 5:6800/cancel . JSON-d project=douban-d job=121 cc 034388 a 11 ebb 1 a 7001 c 42d 0a 249

注意

如果修改了scrapy项目代码,只需要重新发布到scrapyd所在的服务器上即可。

如果scrapy项目暂停了,你可以通过curl再次发送“在断点处恢复攀爬”的命令。

Scrapy项目部署-图形化操作Gerapy

一,说明

Gerapy是中国人开发的爬虫管理软件(有中文界面)。这是一个管理爬虫项目的可视化工具。它把从项目部署到管理的所有操作都变成了交互,实现了批量部署,更方便实时控制、管理和查看结果。

gerapy和scrapyd的关系是,我们在gerapy中配置scrapyd后,可以直接通过图形界面打开爬虫,不需要使用命令。

二,安装

命令(安装在爬虫代码上传端)

皮普安装了杰勒皮-I https://pypi.tuna.tsinghua.edu.cn/simple

试验

三,使用

创建一个gerapy工作目录。

gerapy初始化

按如下方式生成文件夹

创建一个splite数据库来存储已部署的scrapy项目的版本。

gerapy迁移

成功创建后,使用tree命令查看当前文件列表。

创建用户密码

启动服务

gerapy运行服务器

这就是这篇关于快速部署Scrapy project scrapyd的文章。有关Scrapy project scrapyd的更多信息,请搜索我们以前的文章或继续浏览下面的相关文章。希望大家以后能多多支持我们!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: