,,33个Python爬虫项目实战(推荐)

,,33个Python爬虫项目实战(推荐)

本文主要介绍33个Python爬虫项目的实战。边肖认为这很好。现在分享给大家,给大家一个参考。来和边肖一起看看吧。

今天为你整理了32个Python爬虫项目。

原因是爬虫上手简单快捷,也非常适合新手培养信心。所有链接都指向GitHub。玩得开心~O(_)O

微信爬虫[1]-微信官方账号中的微信爬虫。基于搜狗微信搜索的微信微信官方账号爬虫接口,可以扩展为基于搜狗搜索的爬虫,返回的结果是一个列表,每个列表都是微信官方账号的一个特定信息字典。

dous pider[2]-豆瓣阅读爬虫。你可以把豆瓣阅读标签下的书都爬下来,按照评分排名依次存放,保存在Excel中,方便你筛选收藏,比如筛选1000评价数的高分书;根据不同的主题,可以存储在不同的Excel表中。使用用户代理作为浏览器进行抓取,并加入随机延迟,更好的模仿浏览器的行为,避免爬虫被阻塞。

Zhihu_spider [3]- Zhihu爬虫。这个项目的功能是抓取知乎用户信息和人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo。

毕丽-哔哩哔哩-用户[4]-哔哩哔哩用户爬虫。总数据:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级,经验值等。之后,将生成哔哩哔哩用户数据报告。

SinaSpider [5]-新浪微博爬虫。主要抓取新浪微博用户的个人信息、微博信息、粉丝、关注点。获取新浪微博Cookie的代码登录,可以通过多个账号登录,防止新浪攻击你。使用主要的scrapy爬虫框架。

Distribute_crawler [6]-小说下载分布式爬虫。由Scrapy,Redis,MongoDB和graphite实现的分布式网络爬虫。底层存储MongoDB集群,由Redis分发,crawler状态显示由Graphite,主要针对一个新颖的站点。

CnkiSpider [7]-中国知网爬虫。设置好检索条件后,执行src/CnkiSpider.py检索数据,检索到的数据存放在/data目录下,每个数据文件的第一行字段名。

Lian spider[8]-首页链接爬虫。就拿北京链家历年二手房成交记录来说吧。涵盖了文章链爬虫的所有代码,包括链爬虫的模拟登录代码。

Scrapy _京东[9]-JD.COM爬虫。基于Scrapy的JD.COM网站爬虫,以csv格式保存。

QQ群蜘蛛[10]- QQ群爬虫。批量抓取QQ群信息,包括群名、群号、群号、群主、群简介等,最终生成XLS(X)/CSV结果文件。

Wooyun_public[11]-乌云爬虫。开放乌云漏洞,知识库爬虫和搜索。所有公开漏洞的列表以及每个漏洞的文本内容都存储在MongoDB中,大概2G。如果全站抓取所有文字图片作为离线查询,大概需要10G空间和2小时(10M电信带宽);爬所有知识库,总空间500M左右。Flask作为web服务器,bootstrap作为漏洞搜索的前端。

蜘蛛[12]- hao123网站爬虫。以hao123为入口页面,滚动爬外链,收集网址,记录网址上的内链和外链数量,记录标题等信息。Windows 7是在32位上测试的。目前,每24小时,大约可以收集10万个数据。

Findtrip [13]-机票爬虫(去哪儿和携程网)。Findtrip是基于Scrapy的机票爬虫,整合了国内两家机票网站(去哪儿携程)。

13 spider[14]-基于请求的网易客户端内容爬虫,MySQLdb和torndb

dous piders[15]-Python写的,收集了豆瓣电影、书籍、群、相册、东西等爬虫。

QQSpider [16]- QQ空间爬虫,包括日志、谈话、个人信息等。一天可以抓取400万条数据。

百度-音乐-蜘蛛[17]-百度mp3爬虫,使用redis支持断点续传。

Tbcrawler[18]-淘宝和天猫的爬虫可以根据搜索关键词和物品id抓取页面的信息,数据存储在mongodb中。

Stockholm [19]-股票数据(沪深)爬虫和选股策略的测试框架。根据选择的日期范围,抓取沪深股市所有股票的行情数据。支持定义选股策略的表达式。支持多线程处理。将数据保存到JSON文件和CSV文件。

BaiduyunSpider[20]-]-百度云盘爬虫。

蜘蛛[21]-社会数据爬虫。支持微博、知乎、豆瓣。

代理池[22]-Python crawler代理IP池。

音乐-163[23]-抓取网易云音乐所有歌曲的评论。

Dan _ Spider[24]-抓取煎蛋妹纸的图片。

CnblogsSpider[25]-cnblogs列表页面爬虫。

蜘蛛_smooc[26]-抓取海量开放在线课程网视频。

CnkiSpider[27]-中国知网爬虫。

Know spider 2[28]-知道于闯爬虫的话题。

Aiss-spider[29]- Aisi APP图片爬虫。

SinaSpider[30]-动态IP解决新浪反爬虫机制,快速抓取内容。

抓取Csdn的博客帖子。

ProxySpider[32]-对west thorn上的代理IP进行爬网,并验证代理的可用性。

2018.8.2更新:

Webspider[33]-这个系统是一个爬虫,主要使用python3、芹菜和请求来抓取作业数据。它实现了定时任务、重试错误、日志记录、自动更改Cookies等功能。并使用ECharts Bootstrap构建前端页面来显示抓取的数据。

这就是本文的全部内容。希望对大家的学习有帮助,支持我们。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • 爬虫 代理池,Python 代理池,Python爬虫代理池搭建的方法步骤
  • python爬虫技术抓取网站数据,爬虫抓取网页数据
  • python爬虫技术抓取网站数据,爬虫抓取网页数据,python爬虫爬取网页数据并解析数据
  • python爬虫基本原理,python爬虫技术深入理解原理
  • python爬虫基本原理,python爬虫技术深入理解原理,python爬虫的工作原理
  • python爬虫代理服务器,python爬虫换ip,python爬虫设置每个代理ip的简单方法
  • python常用的爬虫库,python中chardet,Python爬虫之必备chardet库
  • python 代理ip,python爬虫换ip
  • python 代理ip,python爬虫换ip,python爬虫设置每个代理ip的简单方法
  • ,,如何用六步教会你使用python爬虫爬取数据
  • ,,python爬虫指南之xpath实例解析(附实战)
  • ,,Python爬虫抓取论坛关键字过程解析
  • ,,Python爬虫实现获取动态gif格式搞笑图片的方法示例
  • ,,Python爬虫实现搭建代理ip池
  • ,,python爬虫之模拟登陆csdn的实例代码
  • 留言与评论(共有 条评论)
       
    验证码: