求均匀分布的概率,均匀分布的概率分布一定是处处连续的
-点击上方“中国统计网”订阅我吧!-
概率分布就像3D眼镜。它们允许熟练的数据分析师识别其他完全随机变量的模式。在某种程度上,大多数其他数据科学或机器学习技能都基于对数据概率分布的某些假设。这使得概率知识成为统计学家构建工具箱的基础。如果您正在寻找如何成为数据科学家的第一步。不用多说,让我们切入正题。概率分布是什么?在概率论和统计学中,随机变量是具有随机值的东西,例如“我看到的下一个人的身高”。给定一个随机变量x,我们想要一种方法来描述它的值。更重要的是,我们要描述这个变量得到一个特定值x的可能性,比如x是“我女朋友养了几只猫”,那么这个数可能是1的非零概率。有人可能会认为这个值甚至可能是非零概率的5或10。然而,一个人不可能(因此也不可能)拥有负数量的猫。所以我们想要一个清晰的数学方法来表达变量X可以采用的每个可能值x,以及事件发生的可能性(X=x)。为此,我们定义函数P,使得P(X=x)是变量X具有值X的概率,对于区间而不是离散值,我们也可以求P(X x)。这将很快变得更加重要。P是变量的密度函数,它表征变量的分布。随着时间的推移,科学家们开始认识到自然界的许多事情。在现实生活中,它们往往表现相似,变量共享一个分布或具有相同的密度函数(或相似的函数改变一些常数)。有趣的是,要让p成为一个真实的密度函数,有些东西必须适用。对于任何值 x,P(X = x)= 1。是再确定不过的事情了。
对于任何值 x,P(X = x) = 0。也没有什么疑义。
和最后一个:所述之和的P(X = x)的所有可能的值X为1。
最后一条的意思是“X取宇宙中任何一个值的概率加起来一定是1。# #离散和连续随机变量分布最后,可以认为随机变量属于两组:离散和连续随机变量。离散随机变量离散变量有一组离散的可能值,每个值都有非零概率。举个例子,如果我们说抛硬币时,X=“1代表花色,0代表数字”然后p(X=“1)=p(X=0)=0.5。然而,请注意,离散集不一定是有限的。被建模的某些事件的概率p后面是k的概率,它有下面的密度公式。P(X=k)=p(1-p)^k 0=p=1 ,其中k可以取任何具有正概率的非负值。请注意,所有可能值的概率总和仍然是1。连续随机变量如果你说X=“从我头上随机拔下的长度(以毫米为单位)”,X可以取什么样的可能值?我们可能都认为负值在这里没有任何意义。但是,如果你说只有1mm,不是1.1853759……或者类似的话,我会怀疑你的测量技巧,或者你的测量误差报告。连续变量可以取给定(连续)区间内的任何值。所以,如果我们把一个非零的概率赋给它所有可能的值,它们之和不会等于1。为了解决这个问题,如果X是连续的,我们对所有的k设P(X=x)=0,取而代之的是,我们给X一个非零的机会得到某个区间的值。为了表示把X放在值A和B之间的概率,我们说P(a在一个密度函数替换值,得到P(a哇,你把整个理论部分都做完了!既然你知道了什么是概率分布,那我们就来了解一些最常见的分布吧!伯努利概率分布是最简单的带有伯努利分布的随机变量。它代表一个二元事件:“这发生了”VS“这没有发生”,并以值p作为其唯一的参数。它所代表的概率就是将要发生的事件。参数为P的伯努利分布的随机变量B会有如下的密度函数:P(B = 1)= p,P(B = 0)=(1-p),其中B=1表示事件发生了,B=0表示事件没有发生。注意这两个概率加起来是1,所以B不可能是其他值。统一概率分布中的均匀随机变量有两种:离散变量和连续变量。离散均匀分布会取(有限)个值的集合S,给每个值赋1/n的概率,其中n是S中元素的个数,这样,如果我的变量y在{1,2,3}中是均匀的,那么每个值出现的概率是33%。离散均匀随机变量的典型情况可以在骰子中找到,其中典型骰子有一组值{1,2,3,4,5,6}。均匀分布,只取A和B两个值作为参数,在它们之间的区间内给每个值赋予相同的密度。这意味着y在一个区间(从C到D)取值的概率与相对于整个区间(ba)的大小成正比。所以,如果y在A和B之间均匀分布,那么这样,如果y是1和2之间的均匀随机变量,P(1 Python的随机包的随机方法采样0和1之间均匀分布的连续变量。有趣的是,可以证明给定一个均匀的随机值生成器和一些微积分,任何其他分布都可以被采样。正态概率分布通常分布的变量在本质上是常见的,它们实际上是标签化的规范。这其实就是这个名字的由来。如果你把所有同事围起来测量身高,或者测量体重,画个直方图,可能接近正态分布。当我向您展示探索性数据分析的示例时,我实际上看到了这种效果。也可以证明,如果你是采用任意随机变量的样本并对这些度量进行平均,并多次重复该过程,平均值也会有正态分布。这个事实非常重要。它被称为统计学的基本定理。通常分布变量:是对称的,以平均值(通常称为)为中心。
你可以得到实空间中的所有值,但只在5%的时间里偏离规范的两个sigmas。
几乎到处都是。在大多数情况下,如果你测量任何经验数据,并且它是对称的,那么假设它是正常的就有点用了。比如滚动K骰子,把结果加起来,会让分布非常正态。对数正态概率分布对数正态概率分布是正态概率分布不常见的姐妹。如果变量Y=log(X)服从正态分布,则称变量X为对数正态分布。当绘制成直方图时,对数正态概率分布是不对称的,如果它们的标准偏差较大,这种情况会变得更加严重。我觉得对数正态分布值得一提,因为大多数基于货币的变量都是这样的。如果你观察任何与钱有关的变量的概率分布,例如:某银行最近一次转账发送的金额。
华尔街最新的交易量。
一组公司在特定季度的季度收益。它们通常没有正态概率分布,但更接近对数正态随机变量。指数概率分布指数概率分布也随处可见。它们与称为泊松过程的概率概念密切相关。直接抄袭维基百科,泊松过程是“事件以恒定的平均速率连续独立发生的过程”。这一切意味着,如果:你有很多活动。它们以一定的速率发生(不随时间变化)。因为只有一个发生,另一个发生的几率不变。然后你有一个泊松过程。一些例子可能是对服务器的请求、超市中的交易或者在湖中钓鱼的鸟。想象一个频率为的泊松过程(比如一个事件每秒发生一次)。指数随机变量模拟事件发生后下一个事件发生所需的时间。有趣的是,在泊松过程中,事件可以发生在0到无穷大(减少概率)之间的任何时间区间。这意味着无论你等待多长时间,事件都不会发生非零事件。也意味着可能在很短的时间内发生多次。在课堂上,我们经常开玩笑说公交车到了泊松。我觉得给某些人发WhatsApp消息时的响应时间也是达标的。但是,参数控制事件的频率。它会使事件实际发生的预期时间以某个值为中心。这意味着,如果我们知道每15分钟就有一辆出租车经过我们的街区,即使理论上我们可以永远等下去,我们也很可能不会等30分钟。数据科学中的指数概率分布这是指数分布随机变量的密度函数:假设您有一个变量样本,并想看看它是否可以用指数分布变量来建模。最佳参数可以容易地估计为采样值平均值的倒数。变量非常适合建模任何带有非常罕见但巨大(和平均)异常值的概率分布。这是因为它们可以取任何非负值但以较小值为中心,随着值的增加频率降低。,特别是在异常重的样本中,您可能希望将估计为中位数而不是平均值,因为中位数对异常值更稳健。总之,我认为学习基础知识对我们来说非常重要。概率和统计可能没有深度学习或无监督机器学习那么华丽,但它们是数据科学的基石。尤其是机器学习。根据我的经验,在不知道它们遵循哪种分布的情况下,提供函数式机器学习模型是一个糟糕的选择。请记住无处不在的指数和正态概率分布及其较小的对应项。对数正态分布也不错。在训练机器学习模型时,知道它们的属性、用途和外观会改变游戏规则。当进行任何类型的数据分析时,记住它们通常也是有好处的。结束。
资料来源:CSDN
原文链接:https://blog.csdn.net/yoggieCDA/article/details/100703311
后台回复【社群】
即可加入数据分析交流群
2000+数据行业小伙伴都在这里!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。