python爬取b站视频信息,
#定位到2022必看热片
#提取子页面连接地址
#拿到想要的下载地址
进口是
导入请求
导入战斗支援车
header={
用户代理: Mozilla/5.0(Windows NT 10.0;win 64x 64)apple WebKit/537.36(KHTML,像壁虎一样)Chrome/96。0 .4664 .93 Safari/537.36
}
url=https://dytt89.com/
requ=requests.get(url,headers=header)
requ.encoding=gb2312
f=打开(电影天堂 csv ,模式=a ,编码=utf-8 ,换行符= )
csvwriter=csv.writer(f)
#电影天堂网页用的是这个gb2312,utf-8会乱码
打印(请求文本)
obj1=re.compile(r span综艺动漫。*?ul(?P ul .*?)/ul ,re .s)
obj2=re.compile(r 阿利href=(?p链接。*?) title=.*?2022年(?p名。*?)/a span,re .s)
obj 3=re。编译(r img alt= src=(?p图。*?)""自动换行:*?a href=(?p链接2。*?)磁铁,回复.s)
result=obj1.finditer(requ.text)
herf_list=[]
因为我的结果是:
ul=i.group(ul )
#打印(i.group(ul ))
result2=obj2.finditer(ul)
对于结果2中的我:
#拼接子页面全球资源定位器(统一资源定位器)
herf=url i.group(link )。条带(/)
herf_list.append(herf) #把子页面列表列举出来
#打印(赫夫)
打印(小组(姓名))
对于herf _列表中的j:
requst=requests.get(j,headers=header)
requst.encoding=gb2312
打印(请求。文本)
rew=obj3.finditer(requst.text)
对于报酬中的学生:
打印(s组(‘滴’))
dic=s.groupdict()
csvwriter.writerow(dic.values())
打印("结束")使用大蟒爬取界面列表子页面链接,然后根据列表的子页面链接,爬取电影天堂的电影的链接和图片存储起来
繁体是因为这些字页面使用的是繁体的表示方法
根据这一思路,我爬取了b站所有动漫的子页面的简介,下面附上代码
#定位到动漫列表
#提取子页面连接地址
#拿到想要的下载地址
导入请求
进口是
导入战斗支援车
wq=1
while(wq 163):
header={
用户代理: Mozilla/5.0(Windows NT 10.0;win 64x 64)apple WebKit/537.36(KHTML,像壁虎一样)Chrome/96。0 .4664 .93 Safari/537.36
}
dat={
季节版本:-1 ,
口语语言类型:-1 ,
区域:-1 ,
is_finish:-1 ,
版权:-1 ,
"季节_状态":-1 ,
季节_月份:-1 ,
年份:-1 ,
style_id:-1 ,
订单: 4 ,
st:1 ,
排序: 0 ,
page:f{wq} ,
季节类型: 1 ,
pagesize:20 ,
类型: 1
}
f=打开(动漫简介 csv ,模式=a ,编码=utf-8 ,换行符= )
csvwriter=csv.writer(f)
URL= https://API。哔哩哔哩。com/PGC/赛季/指数/结果/#
wq=wq 1
requ=requests.get(url,headers=header,params=dat)
打印(请求文本)
obj1=re.compile(rlink :(?p链接。*?)、 media_id 、re .s)
obj 2=re。编译(r meta property= og:title content=(?p标题。*?)"元属性。*?image"content=" .*?元名称=。*?itemprop=description content=(?p建杰。*?) meta it ,re .s)
result=obj1.finditer(requ.text)
link_list=[]
因为我的结果是:
dis=i.group(链接)
打印(dis)
link_list.append
对于链接列表中的j:
印刷(j)
requ1=requests.get(j,headers=header,params=dat)
#print(requ1.text)
结果1=对象2。finditer(请求1。正文)
对于结果一中的k:
打印(k.group(title ))
打印(k.group(jianjie ))
dic=k.groupdict().值()
csvwriter.writerow(dic)
#休息#测试用
动画是按照评分的顺序
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。