scrapyd,scrapy最新版本是什么
Scrapy提供了一个强大的工具类项目加载器。本文通过一个例子介绍一些常见用法。
针对链家的一个具体房源,页面看起来是这样的。
我们的目标是提取红盒子里的信息。
写项目
写蜘蛛
ItemLoader有三个常用的函数,add_xpath、add_css和add_value。前两个功能类似。第一个参数是捕获信息的名称,第二个参数是XPath或CSS expression,第二个和第三个add _ xpaths都是类型字段,会把第二个捕获信息放在第一个后面。Add_value第二个参数为第一个参数的名称赋值,这里的值是time。正则表达式可以稍后添加,如注释行中所写。
运行结果如下:
类型是包含两个元素的列表。两个元素怎么融合?在很多电商网站,商品价格会拆分成多个,所以需要合并。
只需在items文件的Scrapy1Item类中将其修改为以下形式。
从scrapy.loader.processors导入Jointype=scrapy。Field(output_processor=Join())
导入Join函数并定义output_processor。
运行结果:
ItemLoader抓取的是一个列表。我们可以重新定义一个项目类,并获取列表中的第一个元素。
在项目文件中创建另一个类:
从scrapy.loader.processors导入TakeFirst
类TeItem(ItemLoader):
default _ output _ processor=take first()
TakeFirst是指获取非空的第一个元素。要在spiders中导入该类并实例化ItemLoader,请使用TeItem类:
sel=item loader(item=scrapy 1 item(),response=response)
转载请联系作者授权,否则将追究法律责任。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。