python爬虫爬图片教程,python简单爬取图片
在学习了抓取网页中的文字后,今天我们将尝试学习抓取图片。目标地址:http://www.netbian.com/
我们的目标是爬上这些壁纸
打开网址查看网页结构(推荐学习:Python视频教程)
用Firefox浏览器打开链接F12进行查看。
因为我的pyquery
你可以看到图片的链接在img标签的src属性里,我们只需要通过pyquery锁定到这个img标签,然后就可以继续下一步了。
先试着抢一页壁纸吧。
下面是具体的代码:
#!/usr/bin/env python
# -*-编码: utf-8 -*-
# @时间: 2018/10/31 17:54
#抓取图片
导入请求
从pyquery导入PyQuery作为pq
导入时间
标题={
用户代理“:”Mozilla/5.0(Macintosh;英特尔Mac OS X 10 _ 11 _ 4)apple WebKit/537.36
(KHTML,像壁虎一样)Chrome/52 . 0 . 2743 . 116 Safari/537.36
}
#这里我使用代理。您可以删除此代理IP。我正在为后面的大规模抓取做准备。
代理={
https : 218.75 23363653366
}
#请求网页获取源代码
定义开始请求(url):
r=requests.get(url,headers=headers,proxies=proxies)
#本网页使用GBK编码,编码在此转换。
编码=GBK
html=r.text
返回html
#解析网页以获取图片
定义解析(文本):
doc=pq(文本)
#锁定页面中的img标签
images=doc(div.list ul li img )。项目()
x=0
对于images:中的图像
#获取每张图片的链接
img_url=image.attr(src )
#获取每个图像的二进制内容
img=requests.get(img_url,headers=headers,proxies=proxies)。内容
#定义道路强度来存储图片。
path=F:\\image\\ str(x)。 jpg
#将图片写入指定目录,并用 wb 写入文件
打开(路径, wb )作为f:
f .写(img)
时间.睡眠(1)
打印(下载第{}张图片)。格式(x))
x=1
打印(“写入完成”)
定义主():
url=http://www.netbian.com
text=开始请求(url)
解析(文本)
if __name__==__main__:
Main()更多Python相关技术文章,请访问Python教程专栏学习!这就是python如何抓取图片的细节。更多信息请关注热门IT软件开发工作室其他相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。