python爬虫分析网页,

  python爬虫分析网页,

  1.如何查看网页结构:以Douban.com为例:https://book.douban.com/subject_search? Search _ text=data cat=1001

  1)浏览器:谷歌浏览器

  2)打开开发者模式:右键检查。

  3)查看源代码:右键查看网页源代码。

  2.如何建立爬虫逻辑2.1一个简单的框架图

  2.2爬虫的基本逻辑(1):【分页网页的url收集】-【数据信息网页的url收集】-【数据收集】该逻辑为一个数据信息网页收集一条数据。

  步骤1[分页网页的url集合] 获取分页URL列表1

  找到分页网址比如这里有之前爬上见习修士网站的python实习生的资料。

  https://www.shixiseng.com/interns? Page=1 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=

  https://www.shixiseng.com/interns? Page=2 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=

  https://www.shixiseng.com/interns? Page=3 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=。

  这里,因为网页只需要改变“page=…”,所以可以通过for循环来完成。

  步骤2【数据信息网页的url采集】获取一个数据页面的urllst2

  基于分页urllst1,收集每个数据页的url并存储在urllst2中

  https://www.shixiseng.com/intern/inn_j34ozcntlsab

  https://www.shixiseng.com/intern/inn_fxckjairtwke

  https://www.shixiseng.com/intern/inn_2bjwgimxguda

  这里需要requests BeautifulSoup实现。

  第三步【数据收集】每一条数据都存储在一个dict中,所有的dict形成一个datalst列表通过BeautisulSoup分析标签收集数据。

  通过BeautisulSoup实现(下一个内容)

  2.3爬虫的基本逻辑(二):【分页网页的url收集】-【数据收集】这个逻辑也可以叫做“循环标签收集”:一个分页网页收集N条数据。

  优点:与第一种逻辑相比,对网页的访问次数更少,容易避免反抓取。

  缺点:与第一种逻辑相比,获得的信息较少。

  步骤1[分页网页的url集合] 获取分页URL列表1

  找到分页网址比如这里有之前爬上见习修士网站的python实习生的资料。

  https://www.shixiseng.com/interns? Page=1 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=

  https://www.shixiseng.com/interns? Page=2 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=

  https://www.shixiseng.com/interns? Page=3 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=

  这里,因为网页只需要改变“page=…”,所以可以通过for循环来完成。

  第二步【数据收集】每条数据都存储在一个dict中,所有dict组成一个datalst列表通过for循环依次收集页面的多个标签。

  通过BeautisulSoup的实现,对网页进行解析,得到的所有标签信息都存储在dict中。

  3.需要掌握的内容网络资源访问工具:请求掌握请求工具包,学习通过python访问网站,做简单的内容识别。

  网页分析方法:xpath和BeautifulSoup掌握BeautifulSoup工具包,了解Xpath网页分析方法,基本掌握静态网页的页面数据识别。

  爬虫:MongoDB掌握非关系型数据库MongoDB,并学习与python连接,使用MongoDB管理采集的数据。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: