python进行多元线性回归模型,python多元非线性回归模型
可以看出,横坐标是变量,纵坐标是调整后的R2。除截距项外,仅选择人口和文盲两个变量,使线性模型具有最大的调整R2。
与逐步回归相比,全子集回归适用范围更广,模型优化效果更好,但变量越多,全子集回归迭代次数越多,速度越慢。
实际上,变量的选择不仅仅是机械地看那些统计指标,还要根据数据的实际意义,从业务角度选择合适的变量。
线性变量的选取将在《统计学习》之后的第6章中进一步阐述,届时将继续全面讨论。
)3)互动
交互项目《统计学习》在一定程度的篇幅里有描述,但是在方差分析的章节里有讨论。在变量之间加入交互项可以改善线性关系,从而增加调整后的R2。鉴于数据的实际意义,如果变量是两个不容易产生交互作用和协同作用的基本独立变量,那么从业务角度来看,只考虑变量间可能产生协同作用的交互项。
涉及交互术语的原则。如果交互项明显,即使变量不明显,如果放入回归模型的变量和交互项不明显,两者都可以不考虑。
4)交叉检查
正如吴恩达的机器学习所说,新数据可能不会很好地匹配旧数据。因此,一个数据集分为两个训练集和两个测试集(或训练集、交叉验证集和测试集三部分),训练好的模型的性能必须用新的数据来检验。
交叉验证就是选取一定比例的数据作为训练样本,另一个样本作为预留样本。首先在训练样本中得到回归方程,然后在预留样本中进行预测。由于预留样本与模型参数的选择无关,因此可以比新数据更准确地估计样本。
在K重交叉验证中,将样本分成K个子样本,k-1个子样本交替组合作为训练集,另一个子样本作为保留集。这样得到k个预测方程,记录k个保留样本的预测性能结果,取平均值。
自举包中的Crossval))函数提供k-re交叉验证。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。