python进行多元线性回归模型,python多元非线性回归模型

　　可以看出，横坐标是变量，纵坐标是调整后的R2。除截距项外，仅选择人口和文盲两个变量，使线性模型具有最大的调整R2。

　　与逐步回归相比，全子集回归适用范围更广，模型优化效果更好，但变量越多，全子集回归迭代次数越多，速度越慢。

　　实际上，变量的选择不仅仅是机械地看那些统计指标，还要根据数据的实际意义，从业务角度选择合适的变量。

　　线性变量的选取将在《统计学习》之后的第6章中进一步阐述，届时将继续全面讨论。

　　)3)互动

　　交互项目《统计学习》在一定程度的篇幅里有描述，但是在方差分析的章节里有讨论。在变量之间加入交互项可以改善线性关系，从而增加调整后的R2。鉴于数据的实际意义，如果变量是两个不容易产生交互作用和协同作用的基本独立变量，那么从业务角度来看，只考虑变量间可能产生协同作用的交互项。

　　涉及交互术语的原则。如果交互项明显，即使变量不明显，如果放入回归模型的变量和交互项不明显，两者都可以不考虑。

　　4)交叉检查

　　正如吴恩达的机器学习所说，新数据可能不会很好地匹配旧数据。因此，一个数据集分为两个训练集和两个测试集(或训练集、交叉验证集和测试集三部分)，训练好的模型的性能必须用新的数据来检验。

　　交叉验证就是选取一定比例的数据作为训练样本，另一个样本作为预留样本。首先在训练样本中得到回归方程，然后在预留样本中进行预测。由于预留样本与模型参数的选择无关，因此可以比新数据更准确地估计样本。

　　在K重交叉验证中，将样本分成K个子样本，k-1个子样本交替组合作为训练集，另一个子样本作为保留集。这样得到k个预测方程，记录k个保留样本的预测性能结果，取平均值。

　　自举包中的Crossval))函数提供k-re交叉验证。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。