scrapy创建爬虫,python的scrapy框架
文章目录scrapy框架图示完成第一个示例
scrapy框架图示
完成第一个示例创建项目
scrapy startproject项目名字
scrapy项目实验室蜘蛛创建爬虫
刺痒根皮剂爬虫名字域名
quotes.toscrape.com斯皮里基因蜘蛛;状似蜘蛛的物体;星形轮;十字叉;连接柄;十字头实验室编写蜘蛛目录下的爬虫文件
编辑piplines.py文件,修改settings.py的项目_管道,取消注释。用于配置管道文件处理每一个数据项。
配置请求头编辑settings.py
给默认请求标题添加一个用户代理头。
编辑爬虫文件实验室。巴拉圭
进口废品
从labSpider.items导入LabspiderItem
实验室蜘蛛类(斗志昂扬.蜘蛛):
name=lab
allowed _ domains=[引号。托斯卡拉。com ]
start _ URLs=[ http://引号。托斯卡拉。com/]
定义解析(自身,响应):
选择器=response.xpath(//div) #获取所有差异标签
# 获取页面中的数据
对于选择器中的选择器:
text=selector.xpath( ./span[1][text()).get() #获取内容
author=selector.xpath( ./span[2]small/text()).get() #获取相应作者
如果文本和作者:
#打印(文本,作者)
item=LabspiderItem()
项目[文本]=文本
项目[作者]=作者
产量项目
# 翻页操作
next _ page=响应。XPath(//Li[@]/a/@ href ).获取()
# 没到最末页
如果下一页:
# 拼接网址
next _ URL=响应。URL连接(下一页)
#产量生成器,回调到自己从语法上分析函数
产生刺痒感。请求(next_url,callback=self.parse)编辑items.py
#在此定义您的报废物品的型号
#
#请参见以下文档:
# https://docs.scrapy.org/en/latest/topics/items.html
进口废品
LabspiderItem类(斗志昂扬.项目):
#在此定义项目的字段,如下所示:
# name=scrapy .字段()
text=scrapy .字段()
作者=scrapy .字段()编辑管道。巴拉圭文件
#在此定义您的项目管道
#
#不要忘记将您的管道添加到项目_管道设置中
#参见:https://docs . scrapy . org/en/latest/topics/item-pipeline . html
#适用于通过单一界面处理不同的项目类型
从项目适配器导入项目适配器
LabspiderPipeline类(对象):
def open_spider(self,spider):
self.f=open(./res.txt , w )
定义关闭_蜘蛛(自己,蜘蛛):
self.f.close()
定义流程_项目(自身、项目、蜘蛛):
尝试:
data=str(dict(item)) \n
自写(数据)
例外情况为e:
打印(五)
退货项目运行爬虫
挣扎爬行爬虫名字
scrapy爬行实验室最终效果是将网站中的标题和作者存储到文本文件。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。