python爬虫分析网页,

　　1.如何查看网页结构：以Douban.com为例：https://book.douban.com/subject_search? Search _ text=data cat=1001

　　1)浏览器：谷歌浏览器

　　2)打开开发者模式：右键检查。

　　3)查看源代码：右键查看网页源代码。

　　2.如何建立爬虫逻辑2.1一个简单的框架图

　　2.2爬虫的基本逻辑(1):【分页网页的url收集】-【数据信息网页的url收集】-【数据收集】该逻辑为一个数据信息网页收集一条数据。

　　步骤1[分页网页的url集合] 获取分页URL列表1

　　找到分页网址比如这里有之前爬上见习修士网站的python实习生的资料。

　　https://www.shixiseng.com/interns? Page=1 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=

　　https://www.shixiseng.com/interns? Page=2 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=

　　https://www.shixiseng.com/interns? Page=3 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=。

　　这里，因为网页只需要改变“page=…”，所以可以通过for循环来完成。

　　步骤2【数据信息网页的url采集】获取一个数据页面的urllst2

　　基于分页urllst1，收集每个数据页的url并存储在urllst2中

　　https://www.shixiseng.com/intern/inn_j34ozcntlsab

　　https://www.shixiseng.com/intern/inn_fxckjairtwke

　　https://www.shixiseng.com/intern/inn_2bjwgimxguda

　　这里需要requests BeautifulSoup实现。

　　第三步【数据收集】每一条数据都存储在一个dict中，所有的dict形成一个datalst列表通过BeautisulSoup分析标签收集数据。

　　通过BeautisulSoup实现(下一个内容)

　　2.3爬虫的基本逻辑(二):【分页网页的url收集】-【数据收集】这个逻辑也可以叫做“循环标签收集”:一个分页网页收集N条数据。

　　优点：与第一种逻辑相比，对网页的访问次数更少，容易避免反抓取。

　　缺点：与第一种逻辑相比，获得的信息较少。

　　步骤1[分页网页的url集合] 获取分页URL列表1

　　找到分页网址比如这里有之前爬上见习修士网站的python实习生的资料。

　　https://www.shixiseng.com/interns? Page=1 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=

　　https://www.shixiseng.com/interns? Page=2 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=

　　https://www.shixiseng.com/interns? Page=3 keyword=python type=internet area=months=days=REE=official=enterprise=salary=-0 publish time=sortype=city=Beijing inter extend=

　　这里，因为网页只需要改变“page=…”，所以可以通过for循环来完成。

　　第二步【数据收集】每条数据都存储在一个dict中，所有dict组成一个datalst列表通过for循环依次收集页面的多个标签。

　　通过BeautisulSoup的实现，对网页进行解析，得到的所有标签信息都存储在dict中。

　　3.需要掌握的内容网络资源访问工具：请求掌握请求工具包，学习通过python访问网站，做简单的内容识别。

　　网页分析方法：xpath和BeautifulSoup掌握BeautifulSoup工具包，了解Xpath网页分析方法，基本掌握静态网页的页面数据识别。

　　爬虫：MongoDB掌握非关系型数据库MongoDB，并学习与python连接，使用MongoDB管理采集的数据。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读