本文主要介绍33个Python爬虫项目的实战。边肖认为这很好。现在分享给大家,给大家一个参考。来和边肖一起看看吧。
今天为你整理了32个Python爬虫项目。
原因是爬虫上手简单快捷,也非常适合新手培养信心。所有链接都指向GitHub。玩得开心~O(_)O
微信爬虫[1]-微信官方账号中的微信爬虫。基于搜狗微信搜索的微信微信官方账号爬虫接口,可以扩展为基于搜狗搜索的爬虫,返回的结果是一个列表,每个列表都是微信官方账号的一个特定信息字典。
dous pider[2]-豆瓣阅读爬虫。你可以把豆瓣阅读标签下的书都爬下来,按照评分排名依次存放,保存在Excel中,方便你筛选收藏,比如筛选1000评价数的高分书;根据不同的主题,可以存储在不同的Excel表中。使用用户代理作为浏览器进行抓取,并加入随机延迟,更好的模仿浏览器的行为,避免爬虫被阻塞。
Zhihu_spider [3]- Zhihu爬虫。这个项目的功能是抓取知乎用户信息和人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo。
毕丽-哔哩哔哩-用户[4]-哔哩哔哩用户爬虫。总数据:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级,经验值等。之后,将生成哔哩哔哩用户数据报告。
SinaSpider [5]-新浪微博爬虫。主要抓取新浪微博用户的个人信息、微博信息、粉丝、关注点。获取新浪微博Cookie的代码登录,可以通过多个账号登录,防止新浪攻击你。使用主要的scrapy爬虫框架。
Distribute_crawler [6]-小说下载分布式爬虫。由Scrapy,Redis,MongoDB和graphite实现的分布式网络爬虫。底层存储MongoDB集群,由Redis分发,crawler状态显示由Graphite,主要针对一个新颖的站点。
CnkiSpider [7]-中国知网爬虫。设置好检索条件后,执行src/CnkiSpider.py检索数据,检索到的数据存放在/data目录下,每个数据文件的第一行字段名。
Lian spider[8]-首页链接爬虫。就拿北京链家历年二手房成交记录来说吧。涵盖了文章链爬虫的所有代码,包括链爬虫的模拟登录代码。
Scrapy _京东[9]-JD.COM爬虫。基于Scrapy的JD.COM网站爬虫,以csv格式保存。
QQ群蜘蛛[10]- QQ群爬虫。批量抓取QQ群信息,包括群名、群号、群号、群主、群简介等,最终生成XLS(X)/CSV结果文件。
Wooyun_public[11]-乌云爬虫。开放乌云漏洞,知识库爬虫和搜索。所有公开漏洞的列表以及每个漏洞的文本内容都存储在MongoDB中,大概2G。如果全站抓取所有文字图片作为离线查询,大概需要10G空间和2小时(10M电信带宽);爬所有知识库,总空间500M左右。Flask作为web服务器,bootstrap作为漏洞搜索的前端。
蜘蛛[12]- hao123网站爬虫。以hao123为入口页面,滚动爬外链,收集网址,记录网址上的内链和外链数量,记录标题等信息。Windows 7是在32位上测试的。目前,每24小时,大约可以收集10万个数据。
Findtrip [13]-机票爬虫(去哪儿和携程网)。Findtrip是基于Scrapy的机票爬虫,整合了国内两家机票网站(去哪儿携程)。
13 spider[14]-基于请求的网易客户端内容爬虫,MySQLdb和torndb
dous piders[15]-Python写的,收集了豆瓣电影、书籍、群、相册、东西等爬虫。
QQSpider [16]- QQ空间爬虫,包括日志、谈话、个人信息等。一天可以抓取400万条数据。
百度-音乐-蜘蛛[17]-百度mp3爬虫,使用redis支持断点续传。
Tbcrawler[18]-淘宝和天猫的爬虫可以根据搜索关键词和物品id抓取页面的信息,数据存储在mongodb中。
Stockholm [19]-股票数据(沪深)爬虫和选股策略的测试框架。根据选择的日期范围,抓取沪深股市所有股票的行情数据。支持定义选股策略的表达式。支持多线程处理。将数据保存到JSON文件和CSV文件。
BaiduyunSpider[20]-]-百度云盘爬虫。
蜘蛛[21]-社会数据爬虫。支持微博、知乎、豆瓣。
代理池[22]-Python crawler代理IP池。
音乐-163[23]-抓取网易云音乐所有歌曲的评论。
Dan _ Spider[24]-抓取煎蛋妹纸的图片。
CnblogsSpider[25]-cnblogs列表页面爬虫。
蜘蛛_smooc[26]-抓取海量开放在线课程网视频。
CnkiSpider[27]-中国知网爬虫。
Know spider 2[28]-知道于闯爬虫的话题。
Aiss-spider[29]- Aisi APP图片爬虫。
SinaSpider[30]-动态IP解决新浪反爬虫机制,快速抓取内容。
抓取Csdn的博客帖子。
ProxySpider[32]-对west thorn上的代理IP进行爬网,并验证代理的可用性。
2018.8.2更新:
Webspider[33]-这个系统是一个爬虫,主要使用python3、芹菜和请求来抓取作业数据。它实现了定时任务、重试错误、日志记录、自动更改Cookies等功能。并使用ECharts Bootstrap构建前端页面来显示抓取的数据。
这就是本文的全部内容。希望对大家的学习有帮助,支持我们。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。