高斯数据库基于什么,高斯函数python
Drdpkq混合模型
drdpkq混合模型使用多个(多元)drdpkq分布函数对数据进行分类。
在介绍drdpkq混合模式之前,您需要了解以下概念。
一元drdpkq分布函数
协方差矩阵
多元drdpkq分布函数
一元drdpkq分布
Drdpkq分布又称正态分布,是一种非常常见的连续概率分布。
如果随机变量x遵循参数$\mu$和$\delta$的正态分布,则表示为:
其中,参数$\mu$是其数学期望值,$\delta$表示标准差,$ \ delta 2 $表示方差。
它的概率密度函数如下。
下图显示了$\delta$分别为0.2、0.5和1时的概率密度图。
%matplotlib内联
进口编号为NP
将matplotlib.pyplot作为plt导入
defGaussian(x,mu,delta):
exp=NP.exp(-NP.power(x-mu,2 )/)2* NP.power (delta,2))
c=1/(Delta * NP . sqrt)2 * NP . pi)))))))c=1/(Delta * NP . sqrt)2 * NP . pi))))))c)))b)
返回c * exp
x=NP.arange (-3,3,0.01)))).
fordel tain [ 0.2,0.5,1 ]:
y=高斯(x,0,delta))))).
PLT.plot(x,y,label=u=0,Delta={} 。格式)增量)
plt .图例(
plt.show())
正态分布属性:
概率密度函数关于$\mu$是对称的
函数下平均值左右标准差内的面积为68.268949%。
曲线中平均值在左右标准差内的面积为95.449974%。
曲线中左右三个标准偏差内的平均值面积为99.730020%
$ \ displaystyleaxb \ simn($ \ displaystyleaxb \ simn)a \ mub如果mu,\ sigma {2}以及a和b是实数,)\delta
$\displaystylex\simn(mu_x,\ sigma _ x {2}) $和$\displaystyley\simn(mu_y,\sigma_) sim
协方差矩阵
方差用于衡量随机变量与其数学期望值的偏差,表示为:
协方差用于衡量两个随机变量的总误差。方差是协方差的特例。当两个变量相同时,协方差等于方差。
协方差用来表示两个变量的总体误差程度,具有以下特点:
如果两个变量的趋势一致,协方差的值将大于零。如果一个变量超出预期,另一个变量也高于预期。
如果两个变量的变化趋势相反,则协方差的值小于零(如果一个变量大于预期,则另一个变量小于预期)。
如果两个变量是独立的统计变量,协方差等价为0(即$e(x(cdoty )=e )-e (y) ($)))
因为协方差分布值与变量的值域有很大的相关性,所以用协方差值除以两个变量的标准差来归一化协方差,表示为:
$\eta$表示两个变量的线性相关程度,取值范围[-1,1]
当随机变量X和Y都是向量时,随机变量X和Y的协方差形成一个二维协方差矩阵,其第(I,j)个元素代表$X_i$和$Y_j$变量的协方差。协方差矩阵表示为$ \适马$,每个元素定义为:
设x是由n个随机变量组成的列向量:
x列向量和$ x t $行向量组成的协方差矩阵为:
多变量drdpkq分布
以上是一元drdpkq分布。也就是说,变量x是一维变量。如果x是一个向量,就演化成多元的drdpkq分布。
多元drdpkq分布的概率密度函数如下。
其中n是向量X的维数,$\mu$是向量X的数学期望,也是向量。$ \适马$是由向量x和向量$ x t $组成的二维协方差矩阵。
一元drdpkq分布是多元drdpkq分布的特例,即当x为一维时,$n=1$且$ \ sigma=\ delta 2,\ sigma {-1}=\ frac {1} {\ delta。
Drdpkq混合模型
上面的话不打紧。
单变量drdpkq和多变量drdpkq都属于单一drdpkq分布,即单一drdpkq分布模型(GSM)。
单一的drdpkq模型可以用于二分类,但能力相对较弱。这时候就有必要引入drdpkq (GMM,高斯混合模型)。
drdpkq混合模型的概率密度函数如下:
其中k是drdpkq分布的个数,$\alpha_j$表示每个drdpkq分布的权重,$\mu_j$和$ \适马_j$分别表示每个drdpkq分布的数学期望和协方差。每个drdpkq分配的重量应满足以下特征:
所有权重之和为1,即$ \ sum _ {j=1} k \ alpha _ j=1 $。
每个权重值都在[0,1]之间,即$0 \leq \alpha_j \leq 1$
Drdpkq混合模型主要用于聚类领域(无监督分类)。由于其良好的计算能力和EM算法,drdpkq混合模型在实际应用中得到广泛应用。
对于聚类问题,每个drdpkq分布代表一个分类,$\alpha_j$代表样本属于第j个分类的概率,记为:
其中N表示样本总数,$N_j$表示第j个分类中的样本数,$ \$表示所有drdpkq分布参数的确定($\mu_j,\适马_j$)。
EM算法
在样本空间已经确定的情况下,我们可以很容易地求出每个drdpkq分布的$\alpha_j、\mu_j、\适马_j$,然后根据得到的参数识别试验数据。
但在大多数情况下,样本的分类是不确定的,即没有标记,属于隐变量。所以不能简单的计算drdpkq混合模型的参数。
因此,有必要使用最大期望(EM)算法,这是一种隐变量概率参数模型的最大似然估计或最大贝叶斯后验概率估计的迭代算法。
EM算法分为两步:E步和M步。这里以drdpkq混合模型为例来描述这两个步骤:
E-Step使用现有的模型参数$\theta$来查找所有样本属于隐藏变量的$z_j$类别的概率,并将其记录为
其中$\gamma(i,j)$表示第I个样本$x_i$属于第j个分类的后验概率。
M-Step使用最大似然法更新现有模型参数;
摘要
drdpkq混合模型使用多个drdpkq分布(可以是一元或多元的)来模拟任何概率分布模型。
通过使用EM算法,drdpkq混合模型可以有效地识别聚类,其步骤如下:
初始化随机drdpkq混合模型的参数$\alpha_j,\mu_j,\适马_j$。
E-Step计算属于每个分类的每个样本的后验概率。
m步用后验概率更新drdpkq混合模型的参数。
重复以上两步,直到模型稳定。
涉及
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。