python爬取b站视频信息,

  python爬取b站视频信息,

  #定位到2022必看热片

  #提取子页面连接地址

  #拿到想要的下载地址

  进口是

  导入请求

  导入战斗支援车

  header={

  用户代理: Mozilla/5.0(Windows NT 10.0;win 64x 64)apple WebKit/537.36(KHTML,像壁虎一样)Chrome/96。0 .4664 .93 Safari/537.36

  }

  url=https://dytt89.com/

  requ=requests.get(url,headers=header)

  requ.encoding=gb2312

  f=打开(电影天堂 csv ,模式=a ,编码=utf-8 ,换行符= )

  csvwriter=csv.writer(f)

  #电影天堂网页用的是这个gb2312,utf-8会乱码

  打印(请求文本)

  obj1=re.compile(r span综艺动漫。*?ul(?P ul .*?)/ul ,re .s)

  obj2=re.compile(r 阿利href=(?p链接。*?) title=.*?2022年(?p名。*?)/a span,re .s)

  obj 3=re。编译(r img alt= src=(?p图。*?)""自动换行:*?a href=(?p链接2。*?)磁铁,回复.s)

  result=obj1.finditer(requ.text)

  herf_list=[]

  因为我的结果是:

  ul=i.group(ul )

  #打印(i.group(ul ))

  result2=obj2.finditer(ul)

  对于结果2中的我:

  #拼接子页面全球资源定位器(统一资源定位器)

  herf=url i.group(link )。条带(/)

  herf_list.append(herf) #把子页面列表列举出来

  #打印(赫夫)

  打印(小组(姓名))

  对于herf _列表中的j:

  requst=requests.get(j,headers=header)

  requst.encoding=gb2312

  打印(请求。文本)

  rew=obj3.finditer(requst.text)

  对于报酬中的学生:

  打印(s组(‘滴’))

  dic=s.groupdict()

  csvwriter.writerow(dic.values())

  打印("结束")使用大蟒爬取界面列表子页面链接,然后根据列表的子页面链接,爬取电影天堂的电影的链接和图片存储起来

  繁体是因为这些字页面使用的是繁体的表示方法

  根据这一思路,我爬取了b站所有动漫的子页面的简介,下面附上代码

  #定位到动漫列表

  #提取子页面连接地址

  #拿到想要的下载地址

  导入请求

  进口是

  导入战斗支援车

  wq=1

  while(wq 163):

  header={

  用户代理: Mozilla/5.0(Windows NT 10.0;win 64x 64)apple WebKit/537.36(KHTML,像壁虎一样)Chrome/96。0 .4664 .93 Safari/537.36

  }

  dat={

  季节版本:-1 ,

  口语语言类型:-1 ,

  区域:-1 ,

  is_finish:-1 ,

  版权:-1 ,

  "季节_状态":-1 ,

  季节_月份:-1 ,

  年份:-1 ,

  style_id:-1 ,

  订单: 4 ,

  st:1 ,

  排序: 0 ,

   page:f{wq} ,

  季节类型: 1 ,

  pagesize:20 ,

  类型: 1

  }

  f=打开(动漫简介 csv ,模式=a ,编码=utf-8 ,换行符= )

  csvwriter=csv.writer(f)

  URL= https://API。哔哩哔哩。com/PGC/赛季/指数/结果/#

  wq=wq 1

  requ=requests.get(url,headers=header,params=dat)

  打印(请求文本)

  obj1=re.compile(rlink :(?p链接。*?)、 media_id 、re .s)

  obj 2=re。编译(r meta property= og:title content=(?p标题。*?)"元属性。*?image"content=" .*?元名称=。*?itemprop=description content=(?p建杰。*?) meta it ,re .s)

  result=obj1.finditer(requ.text)

  link_list=[]

  因为我的结果是:

  dis=i.group(链接)

  打印(dis)

  link_list.append

  对于链接列表中的j:

  印刷(j)

  requ1=requests.get(j,headers=header,params=dat)

  #print(requ1.text)

  结果1=对象2。finditer(请求1。正文)

  对于结果一中的k:

  打印(k.group(title ))

  打印(k.group(jianjie ))

  dic=k.groupdict().值()

  csvwriter.writerow(dic)

  #休息#测试用

  动画是按照评分的顺序

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: