python爬取网页图片教程,用python爬取网站图片

  python爬取网页图片教程,用python爬取网站图片

  本文给大家带来了一些关于python的知识,主要梳理了抓取网页图片的相关问题。高效获取数据,爬虫非常好用,用Python做爬虫也非常简单方便。下面通过一个简单的小爬虫程序来看看写爬虫的基本过程。下面就一起来看看吧,希望对你有所帮助。

  【相关推荐:Python3视频教程】

  在这个信息爆炸的时代,为了高效获取数据,爬虫是非常有用的。用python做爬虫也非常简单方便。我们通过一个简单的小爬虫来看看写爬虫的基本流程:

  00-1010语言:python

  IDE:pycharm

  是第一个要用的库,因为是入门最简单的程序,我们主要用以下两个:

  导入请求//用于请求网页。

  导入//正则表达式,用于解析和过滤网页中的信息。python自带re,请求库需要我们自己安装。只需在命令行中输入pip安装请求。

  然后随便找个网站,注意不要试图抓取隐私敏感信息。这里有一个表情网站:

  注意:这里的表情包网站中的内容是可以免费下载的,所以爬虫只是简化了一个一个的过程。注意不要抓取付费资源。

  我们要做的就是通过爬虫把这些表情包下载到我们的电脑上。

  

准备工作

首先你必须通过python访问这个网站。代码如下:

  标题={

  用户代理“:”Mozilla/5.0(Windows NT 10.0;Win64x64rv:98.0)壁虎/20100101火狐/98.0

  }

  response=requests . get( 3359 QQ . yh31.com/zjbq/,headers=headers)//请求网页。之所以要加头,是因为有些网页会认出你是通过python请求的,然后拒绝你,所以我们要改正常的请求头。你可以从网络信息中找到任何一个或f12复制一个。

  然后我们要在网页代码中找到我们要抓取的图片的位置。f12查看源代码,找到表情包如下:

  然后建立匹配规则,用正则表达式替换中间的字符串。最简单的就是。*?

  t=img src=(。*?) alt=(。*?)宽度=160 高度=120 这样。

  然后可以调用re库中的findall方法,向下搜索相关内容:

  result=re.findall (t,response.text)返回的内容是字符串列表。最后,我们可以通过爬取的地址,用python语句下载图片并保存到一个文件夹中。

  

编写爬虫程序

导入请求

  进口re

  导入操作系统

  Image=表情包

  如果不是os.path.exists(image):

  os.mkdir(图像)

  标题={

  用户代理“:”Mozilla/5.0(Windows NT 10.0;Win64x64rv:98.0)壁虎/20100101火狐/98.0

  }

  response=requests . get( https://QQ . yh31.com/zjbq/,headers=headers)

  response.encoding=GBK

  response.encoding=utf-8

  打印(response.request.headers)

  打印(响应.状态_代码)

  t=img src=(。*?) alt=(。*?)宽度=160 高度=120

  result=re.findall(t,response.text)

  对于结果:中的img

  打印(img)

  res=requests.get(img[0])

  打印(资源状态代码)

  S=img[0]。拆分(.)[-1] #截取图片后缀得到表情包格式,如jpg、gif。

  with open(image / img[1] . s,mode=wb )作为文件:

  最终结果看起来是这样的:

  【相关推荐:python3视频教程】以上是python爬虫在实战中抓取网页图片的详细内容。更多信息请关注盛行IT软件开发工作室的其他相关文章!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: