python爬取网页图片教程,用python爬取网站图片
本文给大家带来了一些关于python的知识,主要梳理了抓取网页图片的相关问题。高效获取数据,爬虫非常好用,用Python做爬虫也非常简单方便。下面通过一个简单的小爬虫程序来看看写爬虫的基本过程。下面就一起来看看吧,希望对你有所帮助。
【相关推荐:Python3视频教程】
在这个信息爆炸的时代,为了高效获取数据,爬虫是非常有用的。用python做爬虫也非常简单方便。我们通过一个简单的小爬虫来看看写爬虫的基本流程:
00-1010语言:python
IDE:pycharm
是第一个要用的库,因为是入门最简单的程序,我们主要用以下两个:
导入请求//用于请求网页。
导入//正则表达式,用于解析和过滤网页中的信息。python自带re,请求库需要我们自己安装。只需在命令行中输入pip安装请求。
然后随便找个网站,注意不要试图抓取隐私敏感信息。这里有一个表情网站:
注意:这里的表情包网站中的内容是可以免费下载的,所以爬虫只是简化了一个一个的过程。注意不要抓取付费资源。
我们要做的就是通过爬虫把这些表情包下载到我们的电脑上。
准备工作
首先你必须通过python访问这个网站。代码如下:标题={
用户代理“:”Mozilla/5.0(Windows NT 10.0;Win64x64rv:98.0)壁虎/20100101火狐/98.0
}
response=requests . get( 3359 QQ . yh31.com/zjbq/,headers=headers)//请求网页。之所以要加头,是因为有些网页会认出你是通过python请求的,然后拒绝你,所以我们要改正常的请求头。你可以从网络信息中找到任何一个或f12复制一个。
然后我们要在网页代码中找到我们要抓取的图片的位置。f12查看源代码,找到表情包如下:
然后建立匹配规则,用正则表达式替换中间的字符串。最简单的就是。*?
t=img src=(。*?) alt=(。*?)宽度=160 高度=120 这样。
然后可以调用re库中的findall方法,向下搜索相关内容:
result=re.findall (t,response.text)返回的内容是字符串列表。最后,我们可以通过爬取的地址,用python语句下载图片并保存到一个文件夹中。
编写爬虫程序
导入请求进口re
导入操作系统
Image=表情包
如果不是os.path.exists(image):
os.mkdir(图像)
标题={
用户代理“:”Mozilla/5.0(Windows NT 10.0;Win64x64rv:98.0)壁虎/20100101火狐/98.0
}
response=requests . get( https://QQ . yh31.com/zjbq/,headers=headers)
response.encoding=GBK
response.encoding=utf-8
打印(response.request.headers)
打印(响应.状态_代码)
t=img src=(。*?) alt=(。*?)宽度=160 高度=120
result=re.findall(t,response.text)
对于结果:中的img
打印(img)
res=requests.get(img[0])
打印(资源状态代码)
S=img[0]。拆分(.)[-1] #截取图片后缀得到表情包格式,如jpg、gif。
with open(image / img[1] . s,mode=wb )作为文件:
最终结果看起来是这样的:
【相关推荐:python3视频教程】以上是python爬虫在实战中抓取网页图片的详细内容。更多信息请关注盛行IT软件开发工作室的其他相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。