Python 正态分布,python检验数据正态分布
分布是用来描述事件发生规律的数学工具(通常用随机变量X表示)。例如,X~N(78,9)描述了一个考试科目的考试成绩分布,服从均值为78,方差为9的正态分布。我们经常用直方图或概率密度曲线来表示分布特征(如下图)。#寻找真正的思想家#
图1考试成绩分布(正态分布)
事件分布有多种类型,如指数分布、t分布、泊松分布等。每个分布对应于一个概率密度函数(连续随机变量)或一个概率质量函数(离散随机变量)。有了这个函数,我们就可以估计一个事件发生的概率(反之亦然)。这为我们理解和分析问题提供了有力的工具。
图2指数分布
图3泊松分布
在各种分布中,正态分布是一种神奇的分布。大多数自然现象和社会事件服从正态分布,比如身高、收入水平、智力水平。正态分布的特点是分布曲线对称,出现极端现象的概率小,常见现象的发生率高。如图1所示,大部分学生的分数都在70-85之间,有少数分高有低。正态分布体现了“常见情况是多数,极端情况是少数且没有偏倚(最大和最小机会相等)”的客观规律。有人称赞它是“上帝创造的公平机制”。
图4n(, 2)正态分布的概率密度函数
另外,根据中心极限定理,任何分布的平均值都会随着其自由度或样本量的增加而服从正态分布,这意味着正态分布是所有分布的终极形式。任何一种分布都可以通过数据变换(如对数或Box-Cox变换)转化为正态分布,然后进一步求解。在统计分析和机器学习中,正态分布起着基础和关键的作用,也就是说,如果没有正态分布,就不会有这样的数据分析方法。
为什么会这样?因为正态分布是最通用的,也是最简单最容易计算的分布。它的中心趋势(均值、中位数、众数)都是相等的,整个分布只需要指定两个参数:——均值和方差2。
让我们来看一个例子:
5000人的生活区,45个水龙头。如果某个时刻一个人用水的概率是1%,(1)排队的概率有多高?(2)至少要装多少个水龙头,才能保证95%以上概率不拥挤?
我们先来看第一个问题。
用水事件服从二项分布,即~B(5000,0.01)。均值=5000*0.01=50,方差2=49.5,标准差=7.04。那么排队的概率是
二项分布下的概率计算
但是上面公式的求解很麻烦。根据De Mofer的拉普拉斯中心极限定理——,我们可以将上述问题转化为正态分布N(50,49.5)并求解。
转换为标准正态分布,并计算概率。
所以排队概率p ( 45)=10.2389=0.7611。水堵是大概率事件,亟待改善。
现在我们来看第二个问题。需要多少个水龙头才能保证95%的不排队概率?也就是
我们可以把上面的公式转换成标准正态分布的形式
所以我们得到了
也就是
M=61.6,也就是m=62。需要多加17个水龙头,这样就有95%的几率不用排队。#技术技能超级玩家#
@头条号
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。