python爬虫分析网页,
1.如何查看网页结构:以Douban.com为例:https://book.douban.com/subject_search? Search _ text=data cat=1001
1)浏览器:谷歌浏览器
2)打开开发者模式:右键检查。
3)查看源代码:右键查看网页源代码。
2.如何建立爬虫逻辑2.1一个简单的框架图
2.2爬虫的基本逻辑(1):【分页网页的url收集】-【数据信息网页的url收集】-【数据收集】该逻辑为一个数据信息网页收集一条数据。
步骤1[分页网页的url集合] 获取分页URL列表1
找到分页网址比如这里有之前爬上见习修士网站的python实习生的资料。
https://www.shixiseng.com/interns? Page=1 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=
https://www.shixiseng.com/interns? Page=2 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=
https://www.shixiseng.com/interns? Page=3 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=。
这里,因为网页只需要改变“page=…”,所以可以通过for循环来完成。
步骤2【数据信息网页的url采集】获取一个数据页面的urllst2
基于分页urllst1,收集每个数据页的url并存储在urllst2中
https://www.shixiseng.com/intern/inn_j34ozcntlsab
https://www.shixiseng.com/intern/inn_fxckjairtwke
https://www.shixiseng.com/intern/inn_2bjwgimxguda
这里需要requests BeautifulSoup实现。
第三步【数据收集】每一条数据都存储在一个dict中,所有的dict形成一个datalst列表通过BeautisulSoup分析标签收集数据。
通过BeautisulSoup实现(下一个内容)
2.3爬虫的基本逻辑(二):【分页网页的url收集】-【数据收集】这个逻辑也可以叫做“循环标签收集”:一个分页网页收集N条数据。
优点:与第一种逻辑相比,对网页的访问次数更少,容易避免反抓取。
缺点:与第一种逻辑相比,获得的信息较少。
步骤1[分页网页的url集合] 获取分页URL列表1
找到分页网址比如这里有之前爬上见习修士网站的python实习生的资料。
https://www.shixiseng.com/interns? Page=1 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=
https://www.shixiseng.com/interns? Page=2 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=
https://www.shixiseng.com/interns? Page=3 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=
这里,因为网页只需要改变“page=…”,所以可以通过for循环来完成。
第二步【数据收集】每条数据都存储在一个dict中,所有dict组成一个datalst列表通过for循环依次收集页面的多个标签。
通过BeautisulSoup的实现,对网页进行解析,得到的所有标签信息都存储在dict中。
3.需要掌握的内容网络资源访问工具:请求掌握请求工具包,学习通过python访问网站,做简单的内容识别。
网页分析方法:xpath和BeautifulSoup掌握BeautifulSoup工具包,了解Xpath网页分析方法,基本掌握静态网页的页面数据识别。
爬虫:MongoDB掌握非关系型数据库MongoDB,并学习与python连接,使用MongoDB管理采集的数据。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。