【线性回归】线性代数角度解释最小二乘法

时间:2024-05-18 13:28:54

第一:背景

 问题:广告和销量之间的关系?

 数据集:特征包含三块:电视广告xt,网络广告xm,楼宇广告xf,因变量销量记作y。

          【线性回归】线性代数角度解释最小二乘法
           数据集样本数为m。

第二:拟合线性回归模型

          y’ = β0  +  β1 * xt  +  β2 * xm  +  β3 * xf  

          写成矩阵形式:Xβ=y‘

          解释:X就是形状m*4的矩阵【因为加入了一个β0这截距项,所以第一是m个1】,

                     β是一个包含四个元素的向量【β0,β1,β2,β3】

                     y'是一个包含m个元素的向量 【y1,y2,,,,,y3】

第三:几何分析

【线性回归】线性代数角度解释最小二乘法

1、X是构成的列空间COL(X)属于R m 子空间。且COL(X)的秩为4。

     秩为4,说明这个列空间满秩,也就是说COL(X),每一列可以看成一个基

2、Xβ=0     #0表示每个元素的零向量。

  •        Xβ=0 的解【向量】构成的空间称为零空间,记作Null(X),属于R n的子空间【因为列向量为n,零空间最大维度n】。
  •        所谓的解【Xβ=0 的解】,也就是说列空间存在列线性组合【线性组合形成的空间】使得,结果为m维零向量。
  •        既然列空间满秩,那么Xβ=0解只有一个,m维零向量。此时零空间维度为0.

3、零空间的维度=n - r【其中n为列空间的列数,r为列空间的秩】

第四:最小二乘

1、我们知道Xβ=y‘,拟合的y’是m维向量。

      观测值y同样是m维向量。

2、观测值y和拟合值y‘这两个向量,因为必然存在的误差致使Xβ=y【观测值】无解【y观测值不在列空间】。

    那么我们拟合的y’ ,只能尽可能接近y【观测值】。

【线性回归】线性代数角度解释最小二乘法

3、我们假设y和y‘不再一个平面,我们知道y’,是由COL(x)线性组合表示的,假设楼上的图中的超平面是列空间col(x),那么y‘,必定落在这个平面。【多维,想象超平面】

4、那么Xβ=y‘和y观测值,怎么才能最接近?换个角度,就是距离最短?

     在这个空间我们用欧氏距离度量,我们知道欧氏距离的涉及到平方和的根号,所以‘最小二乘法’,中的‘二乘’就是这个概念。

     那么最小二乘法,最小又该怎么理解?联想到距离的概念

     向量e=y - y’ =y - Xβ   

     |e|自然就是距离【其实这个对应到RSS也就是残差平方和】,距离最小,必然就是正交投影。

     e向量自然属于R m维的子空间,称为也属于左零空间【A转置的零空间】,左零空间垂直于列空间COL(X)。

第五:表达式

   1、因为正交投影,向量e和列空间垂直。

    Xt e=0 

    =Xt (y - Xβ) =0   【Xt 表示转置,a.b=aTb,点乘的表示方法】

   Xt Xβ= Xty 【 称为Xβ=y的法方程】

   2、Xt X其实是样本的协方差矩阵,协方差矩阵自然是对称的,要求出β,只好求Xt X的逆矩阵。

   矩阵存在逆矩阵的条件,是该矩阵行列式=!0,

   我们知道行列式表示的是矩阵的‘体积’,这就要求矩阵必须满秩,也就是要求矩阵不能有共线线性。

   备注:如果共线--->行列式=0 ---->左乘该矩阵的逆【假设存在】 ---->相当于降维处理 --->

   丢失了维度信息,自然不能复原,也就不可逆。

3、β=(Xt Xβ)-1  Xt y

     事实上β,又被成为投影矩阵

     即:【线性回归】线性代数角度解释最小二乘法

 

第六:总结

1、Xβ=y【观测值】,一般情况求不出来,因为y【观测值】,不再列空间中。

2、我们退而求其次,求Xβ=y‘,在列空间求最接近y【观测值】的y’的解,什么时候最近就接近?自然是e垂直于列空间。