因子分析的原理是什么,做因子分析的前提

　　前言1。什么是因子分析？1.1因子分析的应用背景1.2因子分析算法的基本步骤1.3因子分析算法的数学解释1.3.1因子模型1.3.2因子负载矩阵求解1.3.3因子负载矩阵旋转1.3.4因子得分2、因子分析应用实例3、主成分分析(PCA)和因子分析)

　　介绍在学习数据降维时，发现因子分析(FA)算法是方法之一。因此，本文对因子分析算法进行了简单的归纳和整理，总结了几种数据降维的方式。有兴趣的可以继续关注。

　　1.什么是因子分析？本文研究了从因子分析法是指：个变量组中提取公因子的统计技术。这里的公因子是指不同变量之间固有的隐性因子。例如，如果一个学生的英语、数据和语文成绩都很好，那么潜在的共同因素可能具有很高的智力水平。所以，因子分析的过程，其实就是寻找共性因子和个性因子以得到最佳解释的过程。其基本思想是：组变量根据相关性的大小来提高组内变量之间的相关性。而不同组的变量没有相关性或相关性很低，每组的变量以公因子为基本结构表示。因子分析有两个核心问题：一、如何构造因子变量，二、如何命名和解释因子变量？因子分析类型：R型因子分析和Q型因子分析。聚类分析分为R型和Q型。r型因子分析是变量的因子分析，Q型因子分析是样本的因子分析。本文基于R型因子分析。

　　1.1因子分析应用背景因子分析对笨核桃仁数据进行处理，主要用于以下两种情况：

　　假如有 m 个样本，每个样本的维度是 n, 如果 n » m这个时候很难做出傻乎乎的桃色模特。更何况，为什么要和傻桃子混在一起？其实这和多元线性方程一样，因为自变量的个数比非线性关系方程的个数多，所以解必然不唯一。在解方程时，可以自由选择满足方程的解，但对于给定的实际数据集，样本的概率分布往往是客观唯一的。但在概率论中无法用几种典型分布准确表示。m 个样本的维度都较低用笨核桃仁分布对数据建模，用极大似然估计估计均值(期望)和方差。

　　协方差矩阵是奇异不可逆的，-1不存在，可见。

　　不过这两项在计算多个笨桃子的分配时也是必不可少的。因此，除非m是大于n的合适值，否则很难找到对方差值和平均值的最大似然估计的正确值。1.2因子分析算法的基本步骤在应用因子分析算法时，往往有以下几个基本步骤：

　　确定原有若干变量是否适合于因子分析因子分析的基本逻辑是由原始变量构造几个有代表性的因子变量，所以原始变量需要强相关性。否则，因子分析无法提取变量之间的“共同特征”(参见。在实践中，相关矩阵可用于验证。如果相关系数小于0.3，说明变量之间的共性较小，不适合进行因子分析。它也可以被KMO和巴特利特检查，以确定它是否适合因子分析。一般来说，KMO值越接近1越好，而大于zhi0.5的值更适合进行因子分析。你的KMO值是0.674，大于0.5。巴特利特的考试主要靠Sig。越小越好。你的接近0。可见你的数据适合做因子分析。构造因子变量因子分析确定因子变量的方法有很多，包括基于主成分模型的主成分分析、基于因子分析模型的主轴因子法、最大似然法、最小二乘法等。利用旋转使得因子变量更具有可解释性在实际分析工作中，可以主要根据因子分析得到的因子与原变量之间的关系，对新因子进行命名和解释。否则，没有解释，与PCA相比没有明显的解释。计算因子变量的得分子变量确定后，希望能对每个样本数据得出不同因素下的具体数据值。这些值是因子得分，对应于

　　(1)相关性检验一般采用KMO检验和巴特利特球面检验来检验原始变量的相关性；(2)输入原始数据Xn*p，计算样本均值和方差，对数据样本进行标准化处理；(3)计算样本的相关矩阵R；(4)求相关矩阵R的特征值和特征向量；5)根据系统要求的累计贡献率确定公因子个数；(6)因子载荷矩阵A的计算；(7)旋转载荷矩阵以更好地解释公因子；(8)因子模型的确定)根据以上计算结果，求解因子得分，分析系统1.3因子分析算法的数学解释。1.3.1因素模型因素分析中的公共因素是不能直接观察到但客观存在的共同影响因素，每个变量表示为公共因素和特殊因素的线性函数之和。

　　公式中的F1，F2，…，Fm称为公因子，I称为Xi的专用因子。该模型可以由以下矩阵表示：

　　这里：

　　并且满意：

　　模型中的矩阵a称为因子载荷矩阵，aij称为因子“载荷”，是第I个变量相对于第j个因子的负值。

　　如果把变量Xi看作M维空间中的一个点，aij表示它在坐标轴Fj上的投影。

　　1.3.2因子负荷矩阵的求解因子负荷矩阵的求解方法有很多，主要包括以下三种方法：主成分分析法；主因子法；最大似然估计法。(主成分分析是最常用的方法)

　　1.主成分分析法

　　原理和主要计算步骤：

　　(1)计算原始数据x的协方差矩阵；

　　(2)计算协方差矩阵的特征根，按数值表示为 _ 1 _ 2 _ p，对应的单位特征向量表示为e_1，e_2，…，e_p，特征向量矩阵表示为u，此时协方差矩阵有如下表达式1:

　　基于公式1和模型假设，我们还可以得到协方差矩阵的表达式如下：

　　结合公式1和2，我们可以得到因子载荷矩阵的估计值：

　　其中包括：

　　其中_i表示第I个特征值，e_ij表示 _ i对应的第I个特征向量的第j个分量。

　　得到负荷矩阵后，我们可以将因子模型表示为：

　　2.主因子法

　　主因子法是主成分法的一种修正，假设我们首先将变量标准化。规则

　　R称为近似相关矩阵，R对角线上的元素是h_i_2，而不是1。设h_i_2为h _ i _ 2的初始估计值，则：

　　3.极大似然估计法

　　详见最大似然估计法1.3.3。因子载荷矩阵的旋转。设Q是M阶正交矩阵，B=AQ，则：

　　因为上一节得到的因子载荷矩阵A不是唯一的，实际上矩阵A经过正交变换得到的所有新矩阵都可以看作是因子载荷矩阵。

　　当我们得到一个因子负荷矩阵的估计时，有可能多个变量在同一个因子上都有较大的因子负荷，或者一个变量在多个因子上都有较大的负荷。这时候就很难解释或者说出因素的名字了。此时，我们希望通过旋转因子载荷矩阵，得到一个新的简化因子载荷矩阵。新的因子载荷具有更高的区分度，便于因子分析和命名。

　　矩阵的旋转分为正交旋转和斜向旋转。正交旋转常用的方法有方差最大值法、四次幂最大值法和等价最大值法。常见的斜旋转方法有最小斜旋转、四次方最小法、斜旋转等。

　　1.3.4由因子得分得到因子负荷矩阵后，有时我们想用公共因子进行其他研究，如聚类分析或回归分析。这时，我们希望通过原始变量来估计公因子，即得到因子得分。

　　对于模型X=AF ，如果不考虑特殊因子的影响，可以得到X=AF，但矩阵A是pXm阶。在模型中，我们要求m=p，通常因子的个数比变量的个数小很多，也就是mp。所以载荷矩阵是不可逆的，不能直接得到F的估计。

　　公因子估计的常用方法有回归法和Bartlett法(加权最小二乘法)。

　　二。因子分析的应用实例假设一个社会经济系统问题，其主要特征可以用四个指标来表示，其中a

　　相应的特征值、总百分比和累积百分比如下：

　　相关矩阵对应于：

　　如果要求所选特征值反映的信息占总信息的90%以上，从累计特征值的百分比来看，只能取前两项。也就是特征值的特征向量矩阵。对应于前两列特征值的特征向量，其只需取两个主要因子可以如下找到：

　　所以这个问题的因子载荷矩阵A是：因子模型:从上面可以看出，两个因素中，f1是综合反映生产、技术、交通、环境的因素，而f2则不同。它反映了有利于生产和技术增长但不利于交通和环境增长的因素。也就是说，根据原始统计数据进行相关矩阵分析的结果是，如果生产和技术都随着f2增长，就会出现交通短缺和环境恶化，f2反映了这两方面的相互制约。

　　Python编程应用的例子有：因子分析(KMO检验和巴特利特球面检验)

　　第三，主成分分析(PCA)和因子分析(FA)的联系和区别。主成分分析(PCA)是一种数据降维技术，它可以将大量的相关变量转化为少数不相关的变量，这些变量称为主成分。探索性因素分析(EFA)是一系列用于发现一组变量潜在结构的方法。它通过寻找一组更小的、潜在的或隐藏的结构来解释观察到的变量和显式变量之间的关系。

　　主成分(PC1和PC2)是观察变量(X1到X5)的线性组合。线性组合的权重是通过最大化每个主成分解释的方差得到的，同时需要保证主成分之间没有相关性。相反，因子(F1和F2)被视为观察变量的结构基础或“原因”，而不是它们的线性组合。代表观察变量方差的误差(e1到e5)不能用因子来解释。图中圆圈表示因子和误差不能直接观察到，但可以从变量之间的关系推导出来。

　　两者的区别和联系如下：

　　因子分析

　　1.PCA和因子分析都是联系：的重要方法。两者都是对原始数据进行标准化处理，消除了原始指标的相关性对综合评价造成的信息重复的影响。两者都属于因子分析，都是基于统计分析。

　　2.数据降维都要用，非笨桃分布数据用ICA算法；

　　3.综合评价中涉及的笨笨的水蜜桃分布的数据由二者共同构建，在原始信息损失不大的前提下，减少了后期数据挖掘分析的工作量。

　　权数具有客观性

　　1.区别：原理不同；是利用降维(线性变换)的思想，在信息损失很小的前提下，将多个指标转化为几个互不相关的主成分，PCA的基本原理；

　　而每个主成分都是原始变量的线性组合是基于原始变量的相关矩阵内的依赖关系，因子可以表示为几个公因子且只有FA基本原理(因子分析是主成分的推广，比主成分分析更倾向于描述原始变量之间的相关关系)；

　　2.某一个变量有作用的特殊因子的线性组合主成分分析不需要有假设，而因子分析需要假设公因子之间，specificfactor之间，公因子和特殊因子之间都没有相关性；

　　3.假设条件不同；主成分分析的解法从协方差矩阵入手，而因子分析的解法有主成分法、主轴因子法、最大似然法、最小二乘法、A因子提取法等。

　　4.求解方法不同；主成分分析的个数最多等于维数；但是因子分析中的因子个数需要由分析者指定(SPSS和SAS是根据一定条件自动设置的，只要特征值大于1的因子就可以进入分析)，指定的因子个数不同，结果也会不同。

　　5.降维后的“维度”数量不同，即因子数量和主成分的数量；因子分析是将变量表示为公因子的线性组合；在主成分分析中，主成分表示为lin

　　7.线性表示方法不同；主成分分析：重点是解释各变量的总方差；因子分析：重点解释变量之间的协方差。

　　8.主成分和因子的变化不同；主成分分析：协方差矩阵的对角元素是变量的方差；因子分析：所用协方差矩阵的对角元素不是变量的方差，而是变量对应的共性(每个因子所解释的变量的方差部分)。

　　9.解释重点不同；对于因子分析，旋转技术可以更好地解释因子，所以因子分析在解释主成分方面更占优势；其次，因子分析不是选择原始变量，而是根据原始变量的信息重新组合，找出影响变量的共同因素，简化数据。如果只想把已有的变量换成几个新变量(新变量几乎包含了原变量的所有信息)进行后续分析，可以用主成分分析，但一般情况下也可以用因子分析。

　　综合来看，在因子分析的实现中可以使用旋转技术，因此可以得到更好的因子解释，优于主成分。另外，因子分析并不需要抛弃原始变量，而是站在原始变量之间的共同因子上作为下一步应用的前提，实际上是从外到内发现内在的规律。而主成分分析的应用范围更广，尤其是对宏观未知数据的稳定性，因为它不需要假设，可以最大限度地保留原始变量的大部分特征。

　　总结因子分析和主成分分析一样，因为侧重于数据降维，所以很少单独使用。在大多数情况下，一些模型会结合使用。例如：

　　(1)因子分析(主成分分析)多元回归分析：判断解决共线性问题后进行回归预测；

　　(2)因子分析(主成分分析)聚类分析：对降维后的数据进行聚类，分析数据特征，但因子分析更适合，因为基于因子的聚类结果更容易解释，而基于主成分的聚类结果则很难解释；

　　(3)因子分析(主成分分析)分类：数据经过降维(或数据压缩)后进行分类预测，也是一种常用的组合方法。

　　因子分析可以通过寻找公共因子来降低数据的维度(因子分析也可以用来分析不同变量之间的内在关系)，而主成分分析可以通过寻找特征矩阵来降低数据的维度。

　　因子分析的主要功能：

　　(1)求基本数据结构；

　　(2)用少数几个因素描述多个具有相关性的指标；

　　(3)数据简化，即降维。

　　1)强相关性问题会给分析带来困难。

　　2)通过因子分析，可以找到少数因子代替原始变量进行回归分析、聚类分析和判别分析。

　　参考来源：