scrapy创建爬虫,python的scrapy框架

  scrapy创建爬虫,python的scrapy框架

  文章目录scrapy框架图示完成第一个示例

  scrapy框架图示

  完成第一个示例创建项目

  scrapy startproject项目名字

  scrapy项目实验室蜘蛛创建爬虫

  刺痒根皮剂爬虫名字域名

  quotes.toscrape.com斯皮里基因蜘蛛;状似蜘蛛的物体;星形轮;十字叉;连接柄;十字头实验室编写蜘蛛目录下的爬虫文件

  编辑piplines.py文件,修改settings.py的项目_管道,取消注释。用于配置管道文件处理每一个数据项。

  配置请求头编辑settings.py

  给默认请求标题添加一个用户代理头。

  编辑爬虫文件实验室。巴拉圭

  进口废品

  从labSpider.items导入LabspiderItem

  实验室蜘蛛类(斗志昂扬.蜘蛛):

  name=lab

  allowed _ domains=[引号。托斯卡拉。com ]

  start _ URLs=[ http://引号。托斯卡拉。com/]

  定义解析(自身,响应):

  选择器=response.xpath(//div) #获取所有差异标签

  # 获取页面中的数据

  对于选择器中的选择器:

  text=selector.xpath( ./span[1][text()).get() #获取内容

  author=selector.xpath( ./span[2]small/text()).get() #获取相应作者

  如果文本和作者:

  #打印(文本,作者)

  item=LabspiderItem()

  项目[文本]=文本

  项目[作者]=作者

  产量项目

  # 翻页操作

  next _ page=响应。XPath(//Li[@]/a/@ href ).获取()

  # 没到最末页

  如果下一页:

  # 拼接网址

  next _ URL=响应。URL连接(下一页)

  #产量生成器,回调到自己从语法上分析函数

  产生刺痒感。请求(next_url,callback=self.parse)编辑items.py

  #在此定义您的报废物品的型号

  #

  #请参见以下文档:

  # https://docs.scrapy.org/en/latest/topics/items.html

  进口废品

  LabspiderItem类(斗志昂扬.项目):

  #在此定义项目的字段,如下所示:

  # name=scrapy .字段()

  text=scrapy .字段()

  作者=scrapy .字段()编辑管道。巴拉圭文件

  #在此定义您的项目管道

  #

  #不要忘记将您的管道添加到项目_管道设置中

  #参见:https://docs . scrapy . org/en/latest/topics/item-pipeline . html

  #适用于通过单一界面处理不同的项目类型

  从项目适配器导入项目适配器

  LabspiderPipeline类(对象):

  def open_spider(self,spider):

  self.f=open(./res.txt , w )

  定义关闭_蜘蛛(自己,蜘蛛):

  self.f.close()

  定义流程_项目(自身、项目、蜘蛛):

  尝试:

  data=str(dict(item)) \n

  自写(数据)

  例外情况为e:

  打印(五)

  退货项目运行爬虫

  挣扎爬行爬虫名字

  scrapy爬行实验室最终效果是将网站中的标题和作者存储到文本文件。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: