本文主要介绍了python爬虫scrapy的基本使用,给大家讲的很详细,对大家的学习或者工作都有一定的参考价值。有需要的朋友可以参考一下。
一.导言基本用法2.1环境安装2.2 scrapy使用流程2.3文件解析2.4 settings.py一些常用设置三。示例3.1示例要求3.2示例代码3.3输出结果
目录
官方文件:中文版本2.3
下图应该大家都不陌生,在很多关于scrapy框架的介绍中都会出现。如果有兴趣,请查看相关资料。当然,学会使用scrapy才是最重要的。
一、介绍
二、基本使用
1.linux和mac操作系统:
pip安装废料
2.windows系统:
安装车轮:pip先安装车轮。
下载twisted:下载地址
Twisted: pip安装twisted 17 . 1 . 0 CP 36 CP 36 mwin _ amd64 . whl(记住带后缀)
pip安装pywin32
pip安装废料
3.Anaconda(推荐)
刚开始学python的时候用的是python3.8,安装各种库的时候总是出现各种错误,真的有点吃不消。Anaconda在安装过程中会安装一些常用的库。其次,在我们想安装其他库的时候也很方便。当然,你也可以选择安装一些其他的软件,
2.1 环境安装
默认大家都在这里安装了scrapy库。请记住在命令行中输入以下命令。(我使用的anaconda的命令行)
创建工程
scrapy startproject项目名称
进入工程目录:确保在此处输入刚刚创建的目录。
cd项目名称
创建爬虫文件:创建的crawler文件将出现在之前创建的spiders文件夹下。
scrapy genspider蜘蛛名www.xxx.com
编写相关代码
执行爬虫文件
爬行蜘蛛名称
2.2 scrapy使用流程
进口废品
类HelloSpider(scrapy。蜘蛛):
Name='hello' #爬虫名称
#允许的域名:限制start_urls列表中的哪些URL可以发送请求。
#通常,我们不使用
# allowed _ domains=[' www . Baidu . com ']
# Start url list: scrapy会自动对start_urls列表中的每个url进行请求。
#我们可以手动添加我们需要访问的url
start _ URLs=[' https://www . Baidu . com/',' https://www.csdn.net/']
Def parse(self,response):# scrapy自动向start_urls中的每个url发送请求时,会在response对象中保存response对象。
#代码一般用parse方法编写。
打印('响应:',响应)
2.3 文件解析
相当于requests中的headers参数中的User-Agent
USER _ AGENT=' Mozilla/5.0(Windows NT 10.0;Win64x64) AppleWebKit/537.36 (KHTML,像壁虎一样)Chrome/88 . 0 . 4324 . 150 Safari/537.36 Edg/88 . 0 . 705 . 68 '
可以忽略或者不遵守robots协议
ROBOTSTXT_OBEY=False
只有程序出现错误的情况下,才显示日志文件,程序正常执行时只会输出我们想要的结果
LOG _ LEVEL=' ERROR '==scrapy crawl spider name-nolog
//两者是等价的。当然推荐前者。
不添加LOG_LEVEL='ERROR '
Add LOG_LEVEL='ERROR '
scrapy 爬取文件保存为CSV文件中文乱码的解决办法
//以下设置可能会导致出现繁体字,可以一个一个试。
FEED_EXPORT_ENCODING='gb18030 '
FEED_EXPORT_ENCODING='utf-8 '
馈送导出编码='gbk '
2.4 settings.py一些常见的设置
三、实例
目的:爬取百度网页的百度热榜
3.1 实例要求
实例代码
3.2 实例代码
结果
这篇关于python爬虫scrapy基本用法的超详细教程就到此为止。关于python crawler scrapy使用的更多信息,请搜索我们以前的文章或继续浏览下面的相关文章。希望大家以后能多多支持我们!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。