对数据进行描述的统计方法称为描述性统计分析,python统计学分析
前言
本文文字和图片均来自互联网,仅供学习交流,无商业用途。如有问题,请及时联系我们进行处理。
PS:如果需要Python学习资料,可以点击下面的链接自行获取。
Python免费学习资料和群发解决方案可以点击加入。
导读
在分析数据时,一般需要对数据进行描述性统计分析,发现其内在规律,然后选择进一步分析的方法。描述性统计分析应对调查中所有变量的相关数据进行统计描述,主要包括频率分析、集中趋势分析、分散分析、数据的分布以及一些基本的统计数字。
本文以数据集classdata为案例,说明如何计算数据探索过程中的各种数据指标。这个数据集是某个班级学生的信息数据,包括姓名、性别、身高、体重等。首先,我们使用以下代码创建数据框:
import panda as PD import numpy as NP classdata=PD . read _ CSV( d:/python data/data/class . CSV )class data . head()运行上述程序,结果如图1所示,显示了数据集class data的前五个观测样本。
图1数据集classdata的前五个观察值
一、集中趋势1。算术平均数
熊猫的变量均值主要有两种计算方法。一种是直接使用可描述函数,另一种是调用均值函数。代码如下:
Classdata.mean()运行程序,结果如下所示。可以看到平均年龄13.3,身高62.34,体重100。
年龄13.315789身高62.336842体重100.026316 DType: Float64同样,我们可以用下面的代码来描述:
Classdata.describe()运行程序,结果如下图2所示,与调用mean函数的计算结果一致。
2图表变量的平均值
2.几何平均值
要计算变量的几何平均值,需要调用Python库scipy。例如,我们计算数据集classdata的可变高度的几何平均值,代码如下:
scipy import stats stats . g mean(class data[ height ])运行程序,结果如下:
62.1313310943146 3.模式
在Pandas中,我们可以直接调用mode函数来计算变量的模式。比如我们计算变龄的模式,代码如下:
Classdata[Age]。模式()运行程序后,结果如下
2二。分散程度1。极端范围和四分位数偏差
Range也叫全距离,是一组数据的最大值和最小值之差;四分位数离差是指第三个分位数和第一个分位数之间的差值,也称为内部距离或四分之一距离。使用describe函数计算最大值、最小值和分位数,可以计算范围和四分位数偏差。
Stat=classdata.describe() #保存基本统计数据stat . loc[ range ]=stat . loc[ max ]-stat . loc[ min ]#极差stat . loc[ dis ]=stat . loc[ 75% ]-stat.四分位数间距打印(stat)运行上述程序,结果如下图3所示。年龄的变化范围为5,四分位差为2.5,身高为20.7,四分位差为7.65,体重为99.5,四分位差为28。
图3距离计算结果
2.平均误差
平均偏差是变量值与其平均值之差的绝对值之和的平均值。在熊猫中,mad函数是用来计算平均差的,可以直接调用。例如,如果我们计算每个变量的平均差,代码如下:
classdata.mad()运行程序后,结果如下:
年龄1.279778身高4.069252体重17.343490类型:Float64 3。标准偏差
计算熊猫标准差的方法有很多种,其中describe和std函数都可以计算。我们在上一篇文章中已经展示了describe函数的用法,这里不再赘述。我们可以直接调用std函数,代码如下:
Classdata.std()运行上述程序,结果如下:
年龄1.492672身高5.127075体重22.773933类型:Float64 4。离散系数
分散系数通常是根据标准偏差计算的。所以也叫标准差系数。它是一组数据的标准差与其对应平均值的比值,是衡量数据离散程度的一个相对指标。
我们可以计算
2=class data . describe()stat 2 . loc[ var ]=stat 2 . loc[ STD ]/stat 2 . loc[ mean ]stat 2运行上述程序,结果如下图4所示:
图4离散系数结果
三。分布状态1。偏斜状态
在Pandas中可以直接调用Skew函数来计算变量的偏度系数。代码如下:
Classdata.skew()运行上述程序,结果如下,其中变量年龄、身高、体重的偏态系数分别为0.06、-0.26、0.18。
年龄0.063612身高-0.259670体重0.183351 dtype: float64 2。峭度
峰度是集中分布的深情白云的形状。在熊猫中,可以直接调用爱笑的康乃馨函数来计算变量的偏度系数。代码如下:
Classdata。爱笑的康乃馨()运行上述程序,结果如下图,其中年龄、身高、体重变量的偏度系数分别为-1.11、-0.14、0.68。
年龄-1.110926身高-0.138969体重0.683365 dtype: float 64 IV。相关性分析1。散点图
散点图的制作方法有很多种,可以直接调用熊猫库的plot.scatter函数来绘制,比如下面这个绘制散点图的程序。
Classdata.plot.scatter (x= Age ,y= Height )运行上面的程序,结果如图5所示。从散点图的数据分布可以看出,身高和年龄这两个变量表现出很强的相关性。
图5年龄和身高变量散点图
同样,我们也可以调用matplotlib库的pyplot函数来绘制散点图。代码如下:
importplotlib . py plot as PLT PLT . scatter(class data[ Height ],class data[ Weight ])PLT . xlabel( Height )PLT . ylabel( Weight )PLT . show()运行上述程序,结果如下图6所示。从散点图数据来看
图6身高和体重变量散点图
2.相关系数
在Pandas中,可以直接调用corr函数来计算变量之间的相关系数,如下:
Classdata.corr()运行程序后,结果如图7所示:
图7变量间的相关系数
除了计算相关系数矩阵,我们还可以绘制相关系数矩阵图。这里需要调用seaborn库进行绘制,代码如下:
导入seaborn为SNS% matplotlib online #计算相关矩阵corr=classdata.corr () #绘制热点图ns.heatmap (corr,xticklabels=corr.columns,yticklabels=corr.columns)运行上述程序后,结果如图8所示:
图8相关系数矩阵图
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。