微博爬虫搜索,爬虫爬取微博

　　表tr td背景颜色=橙色本文所有教程及源码、软件仅为技术研究。不涉及计算机信息系统功能的删除、修改、增加、干扰，更不会影响计算机信息系统的正常运行。不得将代码用于非法用途，如侵立删！/td /tr /table

　　记一次阿里云盾滑块验证分析并通过操作环境win10、macPython3.9数据接口搜索https://**********?container id=100103 type={ chanenl } & q={ quote(self。words)} page _ type=搜索所有页面={ page }用户信息https://**********?标题=基本资料value={userid} 代理配置==使用袜子需安装：pip install-U requests[socks]==

　　def _proxy(self): 调用：return: #判断互联网协议(互联网协议)是否过期new _ time=日期时间。日期时间。现在()如果自我。过期时间和新时间日期时间。日期时间。strptime(self。expire _ time， %Y-%m-%d %H:%M:%S): # #当前时间小于到期时间证明可用# if new _ time日期时间。日期时间。strptime(self。expire _ time， %Y-%m-%d %H:%M:%S): print(f 当前使用IP:{ self。代理}过期时间：{ self。expire _ time } )return Proxy=Proxy()IP _ port，expire _ time=Proxy。main()自我。头=代理。标题本身。Proxy={ http : socks 5://{ } .格式(ip_port)， https: socks5://{} .format(IP _ port)} self。过期时间=过期时间根据关键词获取userid def _get_userid(self，response):userid=[]content=JSON。负载(响应)卡=内容[数据][卡]#数据列表对于卡中卡：如果卡[card_type]！=11: # 状态=11返回的是用户数据列表卡[卡_组]:用户id。append(card _ group[ user ][ id ])#用户编号返回用户编号根据使用者辩证码获取信息def _parse_json(self，RES):content=JSON。负载(RES)数据={ }数据[用户id ]=content[ data ][ userInfo ][ id ]# userid data[用户名]=内容[数据][用户信息][屏幕名称] #用户名# 性别性别=内容[数据][用户信息][性别]数据[性别]=女if sex==f else 男数据[微博认证名称]=content[ data ][ userInfo ][ verified _ reason ]#微博认证名称数据[简介]=内容[数据][用户信息][描述] #简介数据[粉丝数量]=内容[数据][用户信息][追随者_计数]#粉丝数量数据[发布微博量]=内容[数据][用户信息][状态计数]#发布微博量数据[关注量]=内容[数据][用户信息][ follow _ count ]#关注量数据[用户头像]=内容[ data ][ userInfo ][ profile _ image _ URL ]#用户头像数据[移动端地址]=内容[数据][用户信息][个人资料url] #移动端地址数据[关键词]=self.words返回数据数据保存def _save_xls(self，data): 保存数据数据：字典格式必须和表头长度一样：return: #判断文件是否存在如果存在则读取然后插入新数据，不存在则创建一个新数据帧并添加表头file=f"{ PATH }/数据/关键词-{self.words} .xlsx Header=[用户id ，用户名, 性别, 微博认证名称, 简介, 粉丝数量, 发布微博量, 关注量, 用户头像, 移动端地址, 关键词]如果不是OS。路径。存在(f"{ PATH }/数据):OS。mkdir(f"{ PATH }/数据)如果不是os.path.exists(文件):#创建一个新的文件并写入表头df=pd .数据帧(列=标题)否则：#读取现有文件df_read=pd.read_excel(文件)df=pd .数据帧(df_read) #定义一行新数据数据为一个字典新数据=pd .DataFrame(data，index=[1]) #自定义索引为：1 ,这里也可以不设置索引号把定义的新数据添加到原数据最后一行ignore_index=True，表示不按原来的索引，从0开始自动递增df=df.append(新数据，忽略索引=真)#保存数据工作表名称工作表名指数是否添加索引页眉表头df.to_excel(file，sheet_name=self.words，index=False，header=True)数据：

　　表tr td背景颜色=橙色本文仅供学习交流使用，如侵立删！/td /tr /table

　　原创作品出自博主之手，