机器学习---最小二乘线性回归模型的5个基本假设（Machine Learning Least Squares Linear Regression Assumptions）

在之前的文章《机器学习---线性回归（Machine Learning Linear Regression）》中说到，使用最小二乘回归模型需要满足一些假设条件。但是这些假设条件却往往是人们容易忽略的地方。如果不考虑模型的适用情况，就只会得到错误的模型。下面来看一下，使用最小二乘回归模型需要满足哪些假设，以及如果不满足这些假设条件会产生怎样的后果。

最小二乘回归模型的5个基本假设：

自变量（X）和因变量（y）线性相关
自变量（X）之间相互独立
误差项（ε）之间相互独立
误差项（ε）呈正态分布，期望为0，方差为定值
自变量（X）和误差项（ε）之间相互独立

第一个假设：自变量（X）和因变量（y）线性相关

线性相关（linearly dependent）是最基本的假设。如果自变量和因变量之间没有关系或者是非线性关系，那么就无法使用线性回归模型进行预测，或者无法预测出准确的结果。

第二个假设：自变量（X）之间相互独立

如果我们发现本应相互独立的自变量出现了一定程度（甚至高度）的相关性，那么我们就无法知道自变量和因变量之间的真正关系，这称之为共线性（collinearity）。当共线性出现的时候，变量之间的联动关系会导致我们估计的参数的标准差变大，置信区间变宽，由此来看，参数的估计值会变得不稳定，对参数的假设检验也会变得不准确。

（注：两个特征之间相互关联被称之为共线性，但是也有可能三个或更多的特征之间相互关联，即使这些特征两两之间并没有很高的关联，这被称之为多重共线性（multicollinearity））

第三个假设：误差项（ε）之间相互独立

随机误差项的各期望值之间存在着相关关系，称随机误差项之间存在自相关性（autocorrelation）。自相关性通常出现在时间序列里，后一项依赖于前一项；也可能出现在有偏差的样本里，比如样本搜集自同一个家庭的成员。当自相关性出现的时候，预测值的标准差往往比真实的小，进而会导致置信区间变窄，同时，较低的标准差会导致p值较小，这会让我们得到错误的假设检验结果。

第四个假设：误差项（ε）呈正态分布，期望为0，方差为定值

误差项服从均值为0的正态分布，方差为定值。如果违反了这一假设，意味着异常点增多，置信区间会变宽，这称之为异方差性（heteroscedasticity）。当异方差性出现的时候，如果仍采用最小二乘法估计参数，会导致参数的t检验值被高估，可能造成本来不显著的某些参数变为显著，使假设检验失去意义。

第五个假设：自变量（X）和误差项（ε）之间相互独立

模型中一个或多个自变量与随机误差项存在相关关系，这称之为内生性（endogeneity）。内生性通常由于遗漏变量而导致，因此是一个普遍存在的问题。内生性会导致模型参数估计不准确。

秒客网

机器学习---最小二乘线性回归模型的5个基本假设（Machine Learning Least Squares Linear Regression Assumptions）

相关文章