scrapy 数据库,
主要源码如下:
进口废品
从个人电脑。项目导入文件项目
导入数据
导入数学
导入日期时间
xxSpider类(斗志昂扬.蜘蛛):
name=xx
allowed_domains=[xx.com]
#offset=1
#max_page=10 #抓取的最大页数
基本URL= https://www。XXX。com/js/飘福。 html
start_urls=[baseURL]
定义解析(自身,响应):
URL _ list=响应。XPath(//div[@]/dl/DD/a/@ href ).提取()
对于url_list中的网址:
href=https://www.xx.com url
打印( href * 30)
打印(href)
打印( href * 30)
如果type(href)==str:
产生刺痒感。请求(
href,
callback=self.parse_detail
)
if len(响应。XPath(//div[@]/ul/Li[@]/following-sibling:Li ):
URL=响应。XPath(//div[@]/ul/Li[@]/following-sibling:Li/a/@ href ).提取()[0]
url=https://www.xx.com url
打印( 0 * 30)
打印(网址)
打印( 0 * 30)
产生刺痒感。请求(url,callback=self.parse)
def parse_detail(self,response):
pic _ id=响应。XPath(//div[@ id= l ]/div[@]/div[@]/a[@]/@ data-fileid ).提取()[0]
URL= https://www。XXX。com/js/d pic _ id ."零"
# fileUrl为相对路径时,可用response.urljoin(url)进行拼接
item=FileItem(file_urls=[url])
产出项目#注意:此处为产量,不是返回下载源码
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。