python简单爬取图片,python爬虫图片思路

　　文章目录

　　一.导言。要导入的库。实现过程一、下载链接分析二。代码分析三。完成代码四。博主的演讲(免费学习推荐：python视频教程)

　　一、前言

　　之前爬了很多静态网页，包括小说，图片等。今天，我将尝试抓取动态网页。众所周知，百度图片是一个动态网页。然后，走！走吧。走吧。

　　二、需要导入的库

　　导入请求导入JSON导入OS三、实现过程

　　00-1010首先打开百度，搜索一个内容。这里搜的是男神(一)——彭于晏.

　　然后，打开数据包捕获工具，选择XHR选项，按Ctrl+R,然后你会发现，随着你的鼠标滑动，一个接一个的数据包会出现在右侧。(这里没滑太多。一开始因为滑动太多，录制的GIF超过了5M。)

　　然后，选择一个包并检查其标题，如图所示：

　　截取后粘贴在记事本上作为网址，以后用。

　　这里有很多很多参数，我也不知道哪些可以忽略，所以我简单的把它们都复制到了下面的文字里。有关详细信息，请参见以下内容。

　　到这里，能够直接观察到的内容就结束了，接下来，借助代码，帮我们打开另一个世界的大门

　　结束了！

　　00-1010首先：将上面的“其它参数”分组。

　　如果你自己做，你最好复制你的"其它参数"。

　　之后，我们可以尝试先提取它，并将编码格式更改为 utf-8

　　URL= https://image . Baidu.com/search/acjson？

　　param={

　　tn: resultjson_com ，

　　logid : 7517080705015306512 ，

　　ipn: rj :

　　ct: 201326592 ，

　　是‘:’，

　　fp: 结果:

　　查询字 : 彭于晏玉岩:

　　cl: 2 :

　　lm: -1 ，

　　即 : utf-8 ，

　　oe: utf-8 ，

　　adpicid: ，

　　st: ，

　　z: ，

　　ic: ，

　　高清 : ，

　　最新 : ，

　　字 : 彭于晏语研:

　　s: ，

　　se: ，

　　选项卡 : ，

　　宽度 : ，

　　高度 : ，

　　脸 : ，

　　istype: ，

　　质量控制

　　39;: '',

　　 'nc': '1',

　　 'fr': '',

　　 'expermode': '',

　　 'force': '',

　　 'cg': 'star',

　　 'pn': '30',

　　 'rn': '30',

　　 'gsm': '1e',

　　 }

　　 # 将编码形式转换为utf-8

　　 response = requests.get(url=url, headers=header, params=param)

　　 response.encoding = 'utf-8'

　　 response = response.text print(response)运行结果如下：

看上去挺乱的哈，没事，我们给包装一下！

　　在上面的基础上加上：

 # 把字符串转换成json数据
　　 data_s = json.loads(response)
　　 print(data_s)

运行结果如下：

和上面相比，已经明晰很多了，但依旧不够明确，为什么呢？因为它打印的格式不方便我们观看！

　　对此，有两种解决办法。

　　①导入pprint库，接着输入pprint.pprint(data_s)，就能打印啦，如下图

　　②使用json在线解析器（自行百度），结果如下：

　　解决掉上一步，我们会发现，想要的数据都在data里面！

　　那么就提取吧！

 a = data_s["data"]
　　 for i in range(len(a)-1): # -1是为了去掉上面那个空数据
　　 data = a[i].get("thumbURL", "not exist")
　　 print(data)

结果如下：

到这里，已经成功90%啦，剩下的就是保存和优化代码了！

3、完整代码

这部分和上面有些许不同，仔细看看就会发现嗷！

# -*- coding: UTF-8 -*-"""
　　@Author ：远方的星
　　@Time : 2021/2/27 17:49
　　@CSDN ：https://blog.csdn.net/qq_44921056
　　@腾讯云 ： https://cloud.tencent.com/developer/user/8320044
　　"""import requestsimport jsonimport osimport pprint# 创建一个文件夹path = 'D:/百度图片'if not os.path.exists(path):
　　 os.mkdir(path)# 导入一个请求头header = {
　　 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}# 用户（自己）输入信息指令keyword = input('请输入你想下载的内容：')page = input('请输入你想爬取的页数：')page = int(page) + 1n = 0pn = 1# pn代表从第几张图片开始获取，百度图片下滑时默认一次性显示30张for m in range(1, page):
　　 url = 'https://image.baidu.com/search/acjson?'
　　 param = {
　　 'tn': 'resultjson_com',
　　 'logid': ' 7517080705015306512',
　　 'ipn': 'rj',
　　 'ct': '201326592',
　　 'is': '',
　　 'fp': 'result',
　　 'queryWord': keyword,
　　 'cl': '2',
　　 'lm': '-1',
　　 'ie': 'utf-8',
　　 'oe': 'utf-8',
　　 'adpicid': '',
　　 'st': '',
　　 'z': '',
　　 'ic': '',
　　 'hd': '',
　　 'latest': '',
　　 'copyright': '',
　　 'word': keyword,
　　 's': '',
　　 'se': '',
　　 'tab': '',
　　 'width': '',
　　 'height': '',
　　 'face': '',
　　 'istype': '',
　　 'qc': '',
　　 'nc': '1',
　　 'fr': '',
　　 'expermode': '',
　　 'force': '',
　　 'cg': 'star',
　　 'pn': pn,
　　 'rn': '30',
　　 'gsm': '1e',
　　 }
　　 # 定义一个空列表，用于存放图片的URL
　　 image_url = list()
　　 # 将编码形式转换为utf-8
　　 response = requests.get(url=url, headers=header, params=param)
　　 response.encoding = 'utf-8'
　　 response = response.text # 把字符串转换成json数据
　　 data_s = json.loads(response)
　　 a = data_s["data"] # 提取data里的数据
　　 for i in range(len(a)-1): # 去掉最后一个空数据
　　 data = a[i].get("thumbURL", "not exist") # 防止报错key error
　　 image_url.append(data)
　　 for image_src in image_url:
　　 image_data = requests.get(url=image_src, headers=header).content # 提取图片内容数据
　　 image_name = '{}'.format(n+1) + '.jpg' # 图片名
　　 image_path = path + '/' + image_name # 图片保存路径
　　 with open(image_path, 'wb') as f: # 保存数据
　　 f.write(image_data)
　　 print(image_name, '下载成功啦！！！')
　　 f.close()
　　 n += 1
　　 pn += 29

运行结果如下：

友情提示：
①：一页是30张
②：输入的内容可以很多变：比如桥、月亮、太阳、胡歌、赵丽颖等等。

　　四、Blogger’s speech

　　希望大家可以，点赞、关注、收藏，三连支持一下！

大量免费学习推荐，敬请访问python教程(视频)
　　

以上就是python爬虫：随心所欲地爬取百度图片的详细内容，更多请关注盛行IT软件开发工作室其它相关文章！

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

3、完整代码

相关文章阅读