特征提取与图像处理pdf,简述图像特征提取的常用技术
潜在语义索引潜在语义索引(LSI)也称为潜在语义分析(LSA)。本文中称之为LSI。LSI是一个主题模型,它使用奇异值分解方法来获取文本的主题。有关奇异值分解的详细信息,请参见单击打开链接。
LSI方法可用于特征降维、文本相似度计算等。
优点和缺点:
(1)SVD非常耗时,主题模型非负矩阵分解(NMF)可以很好的解决这个问题;
(2)主题值的选取对结果影响很大,很难选择一个合适的K值。Xxdxtz过程(HDP)可以自动选择题目的数量;
(3)LSI没有得到一个概率模型,缺乏统计学基础,结果难以解释。PLSA和LDA是基于概率分布的主题模型,而不是基于矩阵分解的主题模型。
主成分分析主成分分析(PCA)是一种统计方法。通过正交变换,将一组可能相关的变量转换成一组线性无关的变量,转换后的变量称为主成分。
用统计分析方法研究多元问题时,变量过多会增加问题的复杂性。人们自然希望更少的变量,获得更多的信息。在很多情况下,变量之间存在一定的相关性。当两个变量之间存在一定的相关性时,可以解释为这两个变量在这个主题上所反映的信息是重叠的。主成分分析是对所有的原始变量删除冗余的重复变量(密切相关的变量),建立尽可能少的新变量,使这些新变量互不相关,这些新变量在反映主体的信息时尽可能保留原始信息。
试图将原始变量重新组合成一组新的不相关的综合变量,同时根据实际需要取出少数综合变量以尽可能反映原始变量信息的统计方法称为主成分分析或主成分分析,这也是数学中用来降维的一种方法。
计算过程如下:
(1)生成样本的特征向量矩阵
(2)先计算各列特征的平均值,再减去各维该列特征的平均值。
(3)计算特征的协方差矩阵(为什么是协方差矩阵?)
(4)根据协方差矩阵计算特征值和特征向量。
(5)将计算出的特征值由大到小排序。
(6)取出前k个特征向量和特征值,回归得到降维后的特征向量矩阵。
例子
设数据集为,表中X,Y,Z表示有三个特征词,共有10个样本。
(1)求每个特征词的平均值。
(2)减去平均值后的特征值
(3)计算协方差矩阵(协方差矩阵分为两种,一种是样本间的,另一种是特征间的)
(4)计算特征值和特征向量。
(5)将特征值按照从大到小的顺序排序,选择最大的K,然后将它们对应的K个特征向量作为列向量,形成特征向量矩阵。
这里有三个特征向量,我们选择其中的两个,第一个和第三个。
最后,降维后的矩阵如下
*=
从而得到原始样本的二维特征向量空间。
Python代码:
来自numpy import *
来自numpy.linalg import *
x=[]
对于范围(0,10)内的I:
temp=[]
对于范围(0,3)中的j:
w=random.randint(1,20)
温度附加(w)
x.append(临时)
打印(x)
w1=0.0
w2=0.0
w3=0.0
对于范围(0,3)内的I:
对于范围(0,10)内的j:
如果(i==0):
w1=x[j][0]
如果(i==1):
w2=x[j][1]
如果(i==2):
w3=x[j][2]
w1=w1/10.0
w2=w2/10.0
w3=w3/10.0
对于范围(0,3)内的I:
对于范围(0,10)内的j:
如果(i==0):
x[j][0] -=w1
如果(i==1):
x[j][1] -=w2
如果(i==2):
x[j][2] -=w3
x=数组(x)
c=打印(封面(x.T))
x=数组([
[20.6222,14.4222,10.8667],
[14.4222,25.2111,14.3778],
[10.8667,14.3778,27.1556]
])
打印(eig(x))
线性判别分析
在自然语言处理领域,LDA是潜在的狄利克雷分配(LDA),它是一种用于处理文档的主题模型。在本文中,我们只讨论线性判别分析,所以所有的LDA都是指线性判别分析。
LDA是一种监督学习的降维技术,而PCA是一种非监督降维技术。LDA在降维的基础上考虑类别因素,希望投影类内方差最小,类间方差最大。
这种方法的详细介绍以及LDA和PCA的区别可以在上一篇参考文献中找到,这里不再赘述。
附:
python中log2的计算方法
定义日志2(数量):
返回log(num)/log(2);
参考
基于主成分分析的人脸特征提取
核主成分分析在粮虫特征提取中的应用
https://blog.csdn.net/u014755493/article/details/69950744
https://baike.baidu.com/item/主成分分析/829840?fr=阿拉丁
深度学习
https://blog.csdn.net/ych1035235541/article/details/50974983
https://blog.csdn.net/sunhuaqiang1/article/details/69396401
https://www.cnblogs.com/pinard/p/6805861.html
https://www.cnblogs.com/pinard/p/6244265.html
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。