本文主要介绍了Scrapy项目scrapyd快速部署的详细过程,对于大家来说非常详细,对于大家的学习或者工作都有一定的参考价值。有需要的朋友可以参考一下。
快速部署 Scrapy项目 scrapyd
向服务器安装垃圾邮件
皮普安装scrapyd-I https://pypi.tuna.tsinghua.edu.cn/simple
奔跑
scrappy d
修改远程访问的配置项目。
使用Ctrl+c来停止上一次运行。
在要运行scrapyd命令的路径下,创建一个新文件scrapyd.cnf
输入以下内容
[剪贴簿]
#网页和Json服务监听的IP地址默认为127.0.0.1(只有改成0.0.0才能在其他电脑上运行scrapyd后访问服务器)
bind_address=0.0.0.0
#端口监听,默认为6800
http_port=6800
#打开调试模式,默认情况下是关闭的。
调试=关闭
在客户端安装scrapyd-client
1.安装scrapy-client的命令如下
pip安装垃圾-客户端-I https://pypi.tuna.tsinghua.edu.cn/simple
配置Scrapy 项目
修改scrapy.cfg文件
1检查配置
scrapyd-deploy-l
将scrapy项目发布到scrapyd所在的服务器上(此时爬虫没有运行)
# scrapyd-部署目标-p项目-版本版本
# taget:是之前配置文件中部署后的目标名称,比如ubuntu1。
# project:可以随意定义,建议和scrapy爬虫项目同名。
# version:如果不写自定义版本号,默认为当前时间戳,一般不写。
部署ubuntu-1 -p豆瓣
注意
不要把无关的py文件放在爬虫目录里。放无关的py文件会导致发布失败,但是爬虫发布成功后会在当前目录下生成一个setup.py文件,可以删除。
4.发送命令运行crawler。
curl http://10 . 211 . 55 . 5:6800/schedule . JSON-d project=douban-d spider=top 250
停止爬行
curl http://IP:6800/cancel . JSON-d project=项目名称-d job=任务的id值
curl http://10 . 211 . 55 . 5:6800/cancel . JSON-d project=douban-d job=121 cc 034388 a 11 ebb 1 a 7001 c 42d 0a 249
注意
如果修改了scrapy项目代码,只需要重新发布到scrapyd所在的服务器上即可。
如果scrapy项目暂停了,你可以通过curl再次发送“在断点处恢复攀爬”的命令。
Scrapy项目部署-图形化操作Gerapy
一,说明
Gerapy是中国人开发的爬虫管理软件(有中文界面)。这是一个管理爬虫项目的可视化工具。它把从项目部署到管理的所有操作都变成了交互,实现了批量部署,更方便实时控制、管理和查看结果。
gerapy和scrapyd的关系是,我们在gerapy中配置scrapyd后,可以直接通过图形界面打开爬虫,不需要使用命令。
二,安装
命令(安装在爬虫代码上传端)
皮普安装了杰勒皮-I https://pypi.tuna.tsinghua.edu.cn/simple
试验
三,使用
创建一个gerapy工作目录。
gerapy初始化
按如下方式生成文件夹
创建一个splite数据库来存储已部署的scrapy项目的版本。
gerapy迁移
成功创建后,使用tree命令查看当前文件列表。
创建用户密码
启动服务
gerapy运行服务器
这就是这篇关于快速部署Scrapy project scrapyd的文章。有关Scrapy project scrapyd的更多信息,请搜索我们以前的文章或继续浏览下面的相关文章。希望大家以后能多多支持我们!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。