python爬取b站视频信息,

　　#定位到2022必看热片

　　#提取子页面连接地址

　　#拿到想要的下载地址

　　进口是

　　导入请求

　　导入战斗支援车

　　header={

　　用户代理： Mozilla/5.0(Windows NT 10.0；win 64x 64)apple WebKit/537.36(KHTML，像壁虎一样)Chrome/96。0 .4664 .93 Safari/537.36

　　}

　　url=https://dytt89.com/

　　requ=requests.get(url，headers=header)

　　requ.encoding=gb2312

　　f=打开(电影天堂 csv ，模式=a ，编码=utf-8 ，换行符= )

　　csvwriter=csv.writer(f)

　　#电影天堂网页用的是这个gb2312，utf-8会乱码

　　打印（请求文本)

　　obj1=re.compile(r span综艺动漫。*?ul(？P ul .*?)/ul ，re .s)

　　obj2=re.compile(r 阿利href=(？p链接。*?) title=.*?2022年(?p名。*?)/a span，re .s)

　　obj 3=re。编译(r img alt= src=(？p图。*?)""自动换行：*?a href=(？p链接2。*?)磁铁，回复.s)

　　result=obj1.finditer(requ.text)

　　herf_list=[]

　　因为我的结果是：

　　ul=i.group(ul )

　　#打印(i.group(ul ))

　　result2=obj2.finditer(ul)

　　对于结果2中的我：

　　#拼接子页面全球资源定位器(统一资源定位器)

　　herf=url i.group(link )。条带(/)

　　herf_list.append(herf) #把子页面列表列举出来

　　#打印(赫夫)

　　打印（小组(姓名))

　　对于herf _列表中的j:

　　requst=requests.get(j，headers=header)

　　requst.encoding=gb2312

　　打印（请求。文本)

　　rew=obj3.finditer(requst.text)

　　对于报酬中的学生：

　　打印(s组(‘滴’))

　　dic=s.groupdict()

　　csvwriter.writerow(dic.values())

　　打印("结束")使用大蟒爬取界面列表子页面链接，然后根据列表的子页面链接，爬取电影天堂的电影的链接和图片存储起来

　　繁体是因为这些字页面使用的是繁体的表示方法

　　根据这一思路，我爬取了b站所有动漫的子页面的简介，下面附上代码

　　#定位到动漫列表

　　#提取子页面连接地址

　　#拿到想要的下载地址

　　导入请求

　　进口是

　　导入战斗支援车

　　wq=1

　　while(wq 163):

　　header={

　　用户代理： Mozilla/5.0(Windows NT 10.0；win 64x 64)apple WebKit/537.36(KHTML，像壁虎一样)Chrome/96。0 .4664 .93 Safari/537.36

　　}

　　dat={

　　季节版本:-1 ,

　　口语语言类型:-1 ,

　　区域:-1 ,

　　is_finish:-1 ，

　　版权:-1 ,

　　"季节_状态":-1 ,

　　季节_月份:-1 ,

　　年份:-1 ,

　　style_id:-1 ，

　　订单: 4 ,

　　st:1 ，

　　排序: 0 ,

　　 page:f{wq} ，

　　季节类型: 1 ,

　　pagesize:20 ，

　　类型: 1

　　}

　　f=打开(动漫简介 csv ，模式=a ，编码=utf-8 ，换行符= )

　　csvwriter=csv.writer(f)

　　URL= https://API。哔哩哔哩。com/PGC/赛季/指数/结果/#

　　wq=wq 1

　　requ=requests.get(url，headers=header，params=dat)

　　打印（请求文本)

　　obj1=re.compile(rlink :(？p链接。*?)、 media_id 、re .s)

　　obj 2=re。编译(r meta property= og:title content=(？p标题。*?)"元属性。*?image"content=" .*?元名称=。*?itemprop=description content=(？p建杰。*?) meta it ，re .s)

　　result=obj1.finditer(requ.text)

　　link_list=[]

　　因为我的结果是：

　　dis=i.group(链接)

　　打印(dis)

　　link_list.append

　　对于链接列表中的j:

　　印刷(j)

　　requ1=requests.get(j，headers=header，params=dat)

　　#print(requ1.text)

　　结果1=对象2。finditer(请求1。正文)

　　对于结果一中的k:

　　打印(k.group(title ))

　　打印(k.group(jianjie ))

　　dic=k.groupdict().值()

　　csvwriter.writerow(dic)

　　#休息#测试用

　　动画是按照评分的顺序

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

python爬取b站视频信息,

相关文章阅读

去评论

去顶部