爬取知乎数据,python爬虫 知乎

  爬取知乎数据,python爬虫 知乎

  这篇文章主要介绍了计算机编程语言异步爬取知乎热榜实例分享,文章围绕计算机编程语言异步爬取是我相关资料展开对知乎热榜爬取的相关内容,需要的小伙伴卡哇伊参考一下

  

目录
一、错误代码:摘要和详细的全球资源定位器(统一资源定位器)获取不到二、查看射流研究…代码

  

一、错误代码:摘要和详细的url获取不到

  进口异步

  从bs4导入美丽的声音

  进口实现

  标题={

  用户代理“:”Mozilla/5.0(Windows NT 6.1;win 64x 64)apple WebKit/537.36(KHTML,像壁虎一样)Chrome/86。0 .4240 .198 Safari/537.36英尺,

  referer : https://www.baidu.com/s?TN=02003390 _ 43 _ Hao _ PGI source=infinity iname=baiduitype=webie=utf-8wd=知乎热榜

  }

  异步定义获取页面(网址):

  与实现异步ClientSession(头=头)作为会话:

  与session.get(url) as resp:异步

  打印(责任状态)#打印状态码

  html=await resp.text()

  soup=BeautifulSoup(html, lxml )

  items=soup.select( .热门列表-项目)

  对于项目:中的项目

  title=item.select( .常用列表-项目标题)[0]。文本

  尝试:

  abstract=item.select( .常用列表-项目摘录)[0].文本

  例外:

  抽象=无抽象

  hot=item.select( .常用列表-项目度量)[0]。文本

  尝试:

  img=item.select( .热门列表-项目img容器img )[ src ]

  例外:

  img=没有 img

  打印( {}\n{}\n{} ).格式(标题、摘要、img))

  if __name__==__main__:

  URL= https://www。胡志。 com/billboard

  loop=asyncio.get_event_loop()

  循环。run _ until _ complete(获取页面(URL))

  loop.close()

  

二、查看JS代码

  发现详细链接、图片链接、问题摘要等都在射流研究…里面(CSDN的开发者助手插件确实好用)

  正则表达式获取上述信息:

  接下来就是详细的代码啦

  进口异步

  导入数据

  进口是

  进口实现

  标题={

  用户代理“:”Mozilla/5.0(Windows NT 6.1;win 64x 64)apple WebKit/537.36(KHTML,像壁虎一样)Chrome/86。0 .4240 .198 Safari/537.36英尺,

  referer : https://www.baidu.com/s?TN=02003390 _ 43 _ Hao _ PGI source=infinity iname=baiduitype=webie=utf-8wd=知乎热榜

  }

  异步定义获取页面(网址):

  与实现异步ClientSession(头=头)作为会话:

  与session.get(url) as resp:异步

  打印(责任状态)#打印状态码

  html=await resp.text()

  regex=re。编译(热表 :(.*?), guestFeeds: )

  text=regex.search(html).组(1)

  # print(json.loads(text)) # json换成字典格式

  对于json.loads(文本):中的项目

  title=item[目标][标题区域][文本]

  question=item[ target ][ except area ][ text ]

  hot=item[目标][度量面积][文本]

  link=item[ target ][ link ][ URL ]

  img=item[ target ][ imageArea ][ URL ]

  如果不是img:

  img=没有 img

  如果没有问题:

  问题=无摘要

  打印(标题:{ } \ n流行:{ } \ n问题:{ } \ n链接:{}\nImg:{} .格式(标题、热点、问题、链接、img))

  if __name__==__main__:

  URL= https://www。胡志。 com/billboard

  loop=asyncio.get_event_loop()

  循环。run _ until _ complete(获取页面(URL))

  loop.close()

  到此这篇关于计算机编程语言异步爬取知乎热榜实例分享的文章就介绍到这了,更多相关计算机编程语言异步爬取内容请搜索盛行信息技术软件开发工作室以前的文章或继续浏览下面的相关文章希望大家以后多多支持盛行信息技术软件开发工作室!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: