scrapyd,scrapy最新版本是什么

  scrapyd,scrapy最新版本是什么

  Scrapy提供了一个强大的工具类项目加载器。本文通过一个例子介绍一些常见用法。

  针对链家的一个具体房源,页面看起来是这样的。

  我们的目标是提取红盒子里的信息。

  写项目

  写蜘蛛

  ItemLoader有三个常用的函数,add_xpath、add_css和add_value。前两个功能类似。第一个参数是捕获信息的名称,第二个参数是XPath或CSS expression,第二个和第三个add _ xpaths都是类型字段,会把第二个捕获信息放在第一个后面。Add_value第二个参数为第一个参数的名称赋值,这里的值是time。正则表达式可以稍后添加,如注释行中所写。

  运行结果如下:

  类型是包含两个元素的列表。两个元素怎么融合?在很多电商网站,商品价格会拆分成多个,所以需要合并。

  只需在items文件的Scrapy1Item类中将其修改为以下形式。

  从scrapy.loader.processors导入Jointype=scrapy。Field(output_processor=Join())

  导入Join函数并定义output_processor。

  运行结果:

  ItemLoader抓取的是一个列表。我们可以重新定义一个项目类,并获取列表中的第一个元素。

  在项目文件中创建另一个类:

  从scrapy.loader.processors导入TakeFirst

  类TeItem(ItemLoader):

  default _ output _ processor=take first()

  TakeFirst是指获取非空的第一个元素。要在spiders中导入该类并实例化ItemLoader,请使用TeItem类:

  sel=item loader(item=scrapy 1 item(),response=response)

  转载请联系作者授权,否则将追究法律责任。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: