对数据进行描述的统计方法称为描述性统计分析,python统计学分析

  对数据进行描述的统计方法称为描述性统计分析,python统计学分析

  前言

  本文文字和图片均来自互联网,仅供学习交流,无商业用途。如有问题,请及时联系我们进行处理。

  PS:如果需要Python学习资料,可以点击下面的链接自行获取。

  Python免费学习资料和群发解决方案可以点击加入。

  导读

  在分析数据时,一般需要对数据进行描述性统计分析,发现其内在规律,然后选择进一步分析的方法。描述性统计分析应对调查中所有变量的相关数据进行统计描述,主要包括频率分析、集中趋势分析、分散分析、数据的分布以及一些基本的统计数字。

  本文以数据集classdata为案例,说明如何计算数据探索过程中的各种数据指标。这个数据集是某个班级学生的信息数据,包括姓名、性别、身高、体重等。首先,我们使用以下代码创建数据框:

  import panda as PD import numpy as NP classdata=PD . read _ CSV( d:/python data/data/class . CSV )class data . head()运行上述程序,结果如图1所示,显示了数据集class data的前五个观测样本。

  图1数据集classdata的前五个观察值

  一、集中趋势1。算术平均数

  熊猫的变量均值主要有两种计算方法。一种是直接使用可描述函数,另一种是调用均值函数。代码如下:

  Classdata.mean()运行程序,结果如下所示。可以看到平均年龄13.3,身高62.34,体重100。

  年龄13.315789身高62.336842体重100.026316 DType: Float64同样,我们可以用下面的代码来描述:

  Classdata.describe()运行程序,结果如下图2所示,与调用mean函数的计算结果一致。

  2图表变量的平均值

  2.几何平均值

  要计算变量的几何平均值,需要调用Python库scipy。例如,我们计算数据集classdata的可变高度的几何平均值,代码如下:

  scipy import stats stats . g mean(class data[ height ])运行程序,结果如下:

  62.1313310943146 3.模式

  在Pandas中,我们可以直接调用mode函数来计算变量的模式。比如我们计算变龄的模式,代码如下:

  Classdata[Age]。模式()运行程序后,结果如下

  2二。分散程度1。极端范围和四分位数偏差

  Range也叫全距离,是一组数据的最大值和最小值之差;四分位数离差是指第三个分位数和第一个分位数之间的差值,也称为内部距离或四分之一距离。使用describe函数计算最大值、最小值和分位数,可以计算范围和四分位数偏差。

  Stat=classdata.describe() #保存基本统计数据stat . loc[ range ]=stat . loc[ max ]-stat . loc[ min ]#极差stat . loc[ dis ]=stat . loc[ 75% ]-stat.四分位数间距打印(stat)运行上述程序,结果如下图3所示。年龄的变化范围为5,四分位差为2.5,身高为20.7,四分位差为7.65,体重为99.5,四分位差为28。

  图3距离计算结果

  2.平均误差

  平均偏差是变量值与其平均值之差的绝对值之和的平均值。在熊猫中,mad函数是用来计算平均差的,可以直接调用。例如,如果我们计算每个变量的平均差,代码如下:

  classdata.mad()运行程序后,结果如下:

  年龄1.279778身高4.069252体重17.343490类型:Float64 3。标准偏差

  计算熊猫标准差的方法有很多种,其中describe和std函数都可以计算。我们在上一篇文章中已经展示了describe函数的用法,这里不再赘述。我们可以直接调用std函数,代码如下:

  Classdata.std()运行上述程序,结果如下:

  年龄1.492672身高5.127075体重22.773933类型:Float64 4。离散系数

  分散系数通常是根据标准偏差计算的。所以也叫标准差系数。它是一组数据的标准差与其对应平均值的比值,是衡量数据离散程度的一个相对指标。

  我们可以计算

  2=class data . describe()stat 2 . loc[ var ]=stat 2 . loc[ STD ]/stat 2 . loc[ mean ]stat 2运行上述程序,结果如下图4所示:

  图4离散系数结果

  三。分布状态1。偏斜状态

  在Pandas中可以直接调用Skew函数来计算变量的偏度系数。代码如下:

  Classdata.skew()运行上述程序,结果如下,其中变量年龄、身高、体重的偏态系数分别为0.06、-0.26、0.18。

  年龄0.063612身高-0.259670体重0.183351 dtype: float64 2。峭度

  峰度是集中分布的深情白云的形状。在熊猫中,可以直接调用爱笑的康乃馨函数来计算变量的偏度系数。代码如下:

  Classdata。爱笑的康乃馨()运行上述程序,结果如下图,其中年龄、身高、体重变量的偏度系数分别为-1.11、-0.14、0.68。

  年龄-1.110926身高-0.138969体重0.683365 dtype: float 64 IV。相关性分析1。散点图

  散点图的制作方法有很多种,可以直接调用熊猫库的plot.scatter函数来绘制,比如下面这个绘制散点图的程序。

  Classdata.plot.scatter (x= Age ,y= Height )运行上面的程序,结果如图5所示。从散点图的数据分布可以看出,身高和年龄这两个变量表现出很强的相关性。

  图5年龄和身高变量散点图

  同样,我们也可以调用matplotlib库的pyplot函数来绘制散点图。代码如下:

  importplotlib . py plot as PLT PLT . scatter(class data[ Height ],class data[ Weight ])PLT . xlabel( Height )PLT . ylabel( Weight )PLT . show()运行上述程序,结果如下图6所示。从散点图数据来看

  图6身高和体重变量散点图

  2.相关系数

  在Pandas中,可以直接调用corr函数来计算变量之间的相关系数,如下:

  Classdata.corr()运行程序后,结果如图7所示:

  图7变量间的相关系数

  除了计算相关系数矩阵,我们还可以绘制相关系数矩阵图。这里需要调用seaborn库进行绘制,代码如下:

  导入seaborn为SNS% matplotlib online #计算相关矩阵corr=classdata.corr () #绘制热点图ns.heatmap (corr,xticklabels=corr.columns,yticklabels=corr.columns)运行上述程序后,结果如图8所示:

  图8相关系数矩阵图

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • python统计字符串中某个元素出现的次数,python输入一个字符串,统计其中每个字符出现的次数
  • 统计整数二进制表示中1的个数,用python统计数字个数
  • Python表示字符串常量的方式有几种,python统计不同类型字符的个数
  • python 数值计算,用python统计
  • python统计词频实训报告,python英语词频统计
  • python统计双一流高校名单,Python排名
  • python统计平均分,python求一组数据的平均分
  • python 销售预测,python统计销售总额怎么做
  • python 递归遍历目录,python统计指定目录中文件及目录个数
  • python输出1~100的素数,并统计多少个,python统计素数个数
  • python统计缺失值个数,python缺失数据处理
  • python递归上限,python统计递归次数
  • python统计字符串英文字母个数,输入一个字符串分别统计数字和字母个数Python
  • python输入一组数字,采用逗号分隔,输出其中的最大值,用python统计整数出现次数
  • python统计单词出现次数最多的5个单词,python统计单词出现次数字典
  • 留言与评论(共有 条评论)
       
    验证码: