数据分析的r是什么,数据分析和r语言
r和Python,谁更适合数据分析领域?在某些特定情况下谁会有优势?还是一个生来就比另一个各方面都好?
当我们要选择一种数据分析的编程语言时,我相信大多数人会想到R和Python——,但是在这两种非常强大灵活的数据分析语言之间进行选择是非常困难的。
我承认我没能从数据科学家最喜欢的两种语言中选择出更好的一种。因此,为了让事情变得有趣,本文将介绍一些关于这两种语言的详细信息,并将决定权留给读者。值得一提的是,了解这两种语言优缺点的方法有很多。然而,在我看来,这两种语言之间实际上有很强的相关性。
Stack Overflow趋势对比
上图显示了自2008年(发现堆栈溢出)以来,两种语言随时间的变化。
r和Python在数据科学领域竞争激烈。我们来看看他们各自的平台份额,对比一下2016年和2017年:
相关:《Python入门教程》
接下来,我们将从适用场景、数据处理能力、任务、安装难度、开放工具等方面对这两种语言进行更多的了解。
适用场景
r适用于数据分析任务需要独立计算或单台服务器的应用场景。Python作为一种粘合性语言,在数据分析任务中需要与Web应用集成,或者需要在生产数据库中插入统计代码时,最好使用Python。
任务
在探索性统计分析中,R胜出。非常适合初学者,只需要几行代码就可以实现统计模型。Python作为一种完整而强大的编程语言,是部署算法供生产使用的强大工具。
数据处理能力
在专业程序员和非专业程序员的大量软件包和库的支持下,R语言对于执行统计测试和创建机器学习模型都很方便。
Python一开始并不是特别擅长数据分析,但是随着NumPy、Pandas等扩展库的引入,逐渐在数据分析领域得到广泛应用。
开发环境
对于R语言,需要使用R Studio。对于Python来说,有很多Python IDE可以选择,其中Spyder和IPython Notebook最受欢迎。
热门软件包和库
这里列出了R和Python推出的最受专业和非专业程序员欢迎的软件包和库。
面向专业程序员的流行软件包
用于数据操作的Dplyr、plyr和数据表
用于字符串操作的Stringr
以及周期性和不规则时间序列动物园。
数据可视化工具ggvis、lattice和ggplot2
用于机器学习的插入符号
r:面向非专业程序员的流行软件包
连续短促的尖利声
r指挥官
演绎者
这些完整的GUI包可以实现强大的数据统计和建模功能。
Python:专业程序员的流行库
用于数据分析的熊猫
科学计算的SciPy和NumPy
sci kit-为机器学习而学习
图形库matplotlib
Statsmodels用于探索数据、估计统计模型以及执行统计测试和单元测试。
Python:面向非专业程序员的流行库
Orange Canvas 3.0是一个遵循GPL协议的开源软件包。它使用一些常用的Python开源库进行科学计算,包括numpy、scipy和scikit-learn。
R 和 Python 详细对比
正如本文开头提到的,R和Python之间有很强的相关性,这两种语言也越来越流行。很难说哪个更好。两者的融合在数据科学界引起了许多积极的合作浪潮。
总结
实际上,日常用户和数据科学家可以同时使用这两种语言,因为R用户可以通过rPython包在R中运行Python代码,而Python用户可以通过RPy2库在Python环境中运行R代码。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。