,,33个Python爬虫项目实战(推荐)

本文主要介绍33个Python爬虫项目的实战。边肖认为这很好。现在分享给大家，给大家一个参考。来和边肖一起看看吧。

今天为你整理了32个Python爬虫项目。

原因是爬虫上手简单快捷，也非常适合新手培养信心。所有链接都指向GitHub。玩得开心~O(_)O

微信爬虫[1]-微信官方账号中的微信爬虫。基于搜狗微信搜索的微信微信官方账号爬虫接口，可以扩展为基于搜狗搜索的爬虫，返回的结果是一个列表，每个列表都是微信官方账号的一个特定信息字典。

dous pider[2]-豆瓣阅读爬虫。你可以把豆瓣阅读标签下的书都爬下来，按照评分排名依次存放，保存在Excel中，方便你筛选收藏，比如筛选1000评价数的高分书；根据不同的主题，可以存储在不同的Excel表中。使用用户代理作为浏览器进行抓取，并加入随机延迟，更好的模仿浏览器的行为，避免爬虫被阻塞。

Zhihu_spider [3]- Zhihu爬虫。这个项目的功能是抓取知乎用户信息和人际拓扑关系，爬虫框架使用scrapy，数据存储使用mongo。

毕丽-哔哩哔哩-用户[4]-哔哩哔哩用户爬虫。总数据：20119918，抓取字段：用户id，昵称，性别，头像，等级，经验值，粉丝数，生日，地址，注册时间，签名，等级，经验值等。之后，将生成哔哩哔哩用户数据报告。

SinaSpider [5]-新浪微博爬虫。主要抓取新浪微博用户的个人信息、微博信息、粉丝、关注点。获取新浪微博Cookie的代码登录，可以通过多个账号登录，防止新浪攻击你。使用主要的scrapy爬虫框架。

Distribute_crawler [6]-小说下载分布式爬虫。由Scrapy，Redis，MongoDB和graphite实现的分布式网络爬虫。底层存储MongoDB集群，由Redis分发，crawler状态显示由Graphite，主要针对一个新颖的站点。

CnkiSpider [7]-中国知网爬虫。设置好检索条件后，执行src/CnkiSpider.py检索数据，检索到的数据存放在/data目录下，每个数据文件的第一行字段名。

Lian spider[8]-首页链接爬虫。就拿北京链家历年二手房成交记录来说吧。涵盖了文章链爬虫的所有代码，包括链爬虫的模拟登录代码。

Scrapy _京东[9]-JD.COM爬虫。基于Scrapy的JD.COM网站爬虫，以csv格式保存。

QQ群蜘蛛[10]- QQ群爬虫。批量抓取QQ群信息，包括群名、群号、群号、群主、群简介等，最终生成XLS(X)/CSV结果文件。

Wooyun_public[11]-乌云爬虫。开放乌云漏洞，知识库爬虫和搜索。所有公开漏洞的列表以及每个漏洞的文本内容都存储在MongoDB中，大概2G。如果全站抓取所有文字图片作为离线查询，大概需要10G空间和2小时(10M电信带宽)；爬所有知识库，总空间500M左右。Flask作为web服务器，bootstrap作为漏洞搜索的前端。

蜘蛛[12]- hao123网站爬虫。以hao123为入口页面，滚动爬外链，收集网址，记录网址上的内链和外链数量，记录标题等信息。Windows 7是在32位上测试的。目前，每24小时，大约可以收集10万个数据。

Findtrip [13]-机票爬虫(去哪儿和携程网)。Findtrip是基于Scrapy的机票爬虫，整合了国内两家机票网站(去哪儿携程)。

13 spider[14]-基于请求的网易客户端内容爬虫，MySQLdb和torndb

dous piders[15]-Python写的，收集了豆瓣电影、书籍、群、相册、东西等爬虫。

QQSpider [16]- QQ空间爬虫，包括日志、谈话、个人信息等。一天可以抓取400万条数据。

百度-音乐-蜘蛛[17]-百度mp3爬虫，使用redis支持断点续传。

Tbcrawler[18]-淘宝和天猫的爬虫可以根据搜索关键词和物品id抓取页面的信息，数据存储在mongodb中。

Stockholm [19]-股票数据(沪深)爬虫和选股策略的测试框架。根据选择的日期范围，抓取沪深股市所有股票的行情数据。支持定义选股策略的表达式。支持多线程处理。将数据保存到JSON文件和CSV文件。

BaiduyunSpider[20]-]-百度云盘爬虫。

蜘蛛[21]-社会数据爬虫。支持微博、知乎、豆瓣。

代理池[22]-Python crawler代理IP池。

音乐-163[23]-抓取网易云音乐所有歌曲的评论。

Dan _ Spider[24]-抓取煎蛋妹纸的图片。

CnblogsSpider[25]-cnblogs列表页面爬虫。

蜘蛛_smooc[26]-抓取海量开放在线课程网视频。

CnkiSpider[27]-中国知网爬虫。

Know spider 2[28]-知道于闯爬虫的话题。

Aiss-spider[29]- Aisi APP图片爬虫。

SinaSpider[30]-动态IP解决新浪反爬虫机制，快速抓取内容。

抓取Csdn的博客帖子。

ProxySpider[32]-对west thorn上的代理IP进行爬网，并验证代理的可用性。

2018.8.2更新：

Webspider[33]-这个系统是一个爬虫，主要使用python3、芹菜和请求来抓取作业数据。它实现了定时任务、重试错误、日志记录、自动更改Cookies等功能。并使用ECharts Bootstrap构建前端页面来显示抓取的数据。

这就是本文的全部内容。希望对大家的学习有帮助，支持我们。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读