python多变量相关性分析,python 相关分析

　　相关系数量化了变量或数据集特征之间的关联。这些统计数据对于科学技术非常重要，Python有很好的工具来计算它们。SciPy，NumPy和熊猫相关的方法和数据可视化功能，有兴趣的可以看看。

　　00-1010关联实现NumPy关联计算SciPy关联计算panda关联计算线性关联实现线性回归：SciPy实现秩关联排序：SciPy实现秩关联：NumPy和SciPy实现秩关联：panda实现关联XY图关联矩阵热图matplotlib关联矩阵热图seaborn

线性相关实现

　　线性相关性测量变量或数据集特征之间的数学关系与线性函数的接近程度。如果两个特征之间的关系更接近某个线性函数，那么它们的线性相关性更强，相关系数的绝对值也更高。

线性回归：SciPy 实现

　　线性回归是寻找尽可能接近特征之间实际关系的线性函数的过程。换句话说，您确定最能描述特征之间关联的线性函数，这种线性函数也称为回归线。

import pandas as pd
　　x = pd.Series(range(10, 20))
　　y = pd.Series([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])

　　使用scipy.stats.linregress()对两个长度相同的数组执行线性回归。

result = scipy.stats.linregress(x, y)

　　scipy.stats.linregress(xy)

　　LinregressResult(slope=7.4363636363636365, intercept=-85.92727272727274, rvalue=0.7586402890911869, pvalue=0.010964341301680825, stderr=2.257878767543913)

　　result.slope # 回归线的斜率

　　7.4363636363636365

　　result.intercept # 回归线的截距

　　-85.92727272727274

　　result.rvalue # 相关系数

　　0.7586402890911869

　　result.pvalue # p值

　　0.010964341301680825

　　result.stderr # 估计梯度的标准误差

　　2.257878767543913

　　未来更多内容参考机器学习专栏中的线性回归内容。

等级相关

　　比较与两个变量或数据集特征相关的数据的排名或排序。如果排序相似则相关性强、正且高。但是如果顺序接近反转，则相关性为强、负和低。换句话说等级相关性仅与值的顺序有关，而不与数据集中的特定值有关。

　　图1和图2显示了较大的 x 值始终对应于较大的 y 值的观察结果，这是完美的正等级相关。图3说明了相反的情况即完美的负等级相关。

排名：SciPy 实现

　　使用 scipy.stats.rankdata() 来确定数组中每个值的排名。

import numpy as np
　　import scipy.stats
　　x = np.arange(10, 20)
　　y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])
　　z = np.array([5, 3, 2, 1, 0, -2, -8, -11, -15, -16])
　　# 获取排名序
　　scipy.stats.rankdata(x) # 单调递增
　　array([ 1., 2., 3., 4., 5., 6., 7., 8., 9., 10.])
　　scipy.stats.rankdata(y)
　　array([ 2., 1., 3., 4., 5., 6., 7., 8., 10., 9.])
　　scipy.stats.rankdata(z) # 单调递减
　　array([10., 9., 8., 7., 6., 5., 4., 3., 2., 1.])

　　rankdata() 将nan值视为极大。

scipy.stats.rankdata([8, np.nan, 0, 2])
　　array([3., 4., 1., 2.])

等级相关性：NumPy 和 SciPy 实现

　　使用 scipy.stats.spearmanr() 计算 Spearman 相关系数。

result = scipy.stats.spearmanr(x, y)
　　result
　　SpearmanrResult(correlation=0.9757575757575757, pvalue=1.4675461874042197e-06)
　　result.correlation
　　0.9757575757575757
　　result.pvalue
　　1.4675461874042197e-06
　　rho, p = scipy.stats.spearmanr(x, y)
　　rho
　　0.9757575757575757
　　p
　　1.4675461874042197e-06

等级相关性：Pandas 实现

　　使用 Pandas 计算 Spearman 和 Kendall 相关系数。

import numpy as np
　　import scipy.stats
　　x = np.arange(10, 20)
　　y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])
　　z = np.array([5, 3, 2, 1, 0, -2, -8, -11, -15, -16])
　　x, y, z = pd.Series(x), pd.Series(y), pd.Series(z)
　　xy = pd.DataFrame({x-values: x, y-values: y})
　　xyz = pd.DataFrame({x-values: x, y-values: y, z-values: z})

　　计算 Spearman 的 rho，method=spearman。

x.corr(y, method=spearman)

　　0.9757575757575757

　　xy.corr(method=spearman)

　　 x-values y-values

　　x-values 1.000000 0.975758

　　y-values 0.975758 1.000000

　　xyz.corr(method=spearman)

　　 x-values y-values z-values

　　x-values 1.000000 0.975758 -1.000000

　　y-values 0.975758 1.000000 -0.975758

　　z-values -1.000000 -0.975758 1.000000

　　xy.corrwith(z, method=spearman)

　　x-values -1.000000

　　y-values -0.975758

　　dtype: float64

　　计算 Kendall 的 tau， method=kendall。

x.corr(y, method=kendall)
　　0.911111111111111
　　xy.corr(method=kendall)
　　 x-values y-values
　　x-values 1.000000 0.911111
　　y-values 0.911111 1.000000
　　xyz.corr(method=kendall)
　　 x-values y-values z-values
　　x-values 1.000000 0.911111 -1.000000
　　y-values 0.911111 1.000000 -0.911111
　　z-values -1.000000 -0.911111 1.000000
　　xy.corrwith(z, method=kendall)
　　x-values -1.000000
　　y-values -0.911111
　　dtype: float64

python多变量相关性分析,python 相关分析

目录

相关性实现

NumPy 相关性计算

SciPy 相关性计算

线性相关实现

线性回归：SciPy 实现

等级相关

排名：SciPy 实现

等级相关性：NumPy 和 SciPy 实现

等级相关性：Pandas 实现

相关性的可视化

带有回归线的 XY 图

相关矩阵的热图 matplotlib

相关矩阵的热图 seaborn

相关文章阅读