机器学习中求参数的方法

一、引言

机器学习中的回归问题属于有监督学习的范畴。回归问题的目标是给定D维输入变量x，并且每一个输入矢量x都有对应的值y，要求对于新来的数据预测它对应的连续的目标值t。比如下面这个例子：假设我们有一个包含47个房子的面积和价格的数据集如下：

　机器学习中求参数的方法

我们可以在Matlab中画出来这组数据集，如下：

机器学习中求参数的方法

　　看到画出来的点，是不是有点像一条直线？我们可以用一条曲线去尽量拟合这些数据点，那么对于新来的输入，我么就可以将拟合的曲线上返回对应的点从而达到预测的目的。如果要预测的值是连续的比如上述的房价，那么就属于回归问题；如果要预测的值是离散的即一个个标签，那么就属于分类问题。这个学习处理过程如下图所示：

机器学习中求参数的方法

　　上述学习过程中的常用术语：包含房子面积和价格的数据集称为训练集training set；输入变量x（本例中为面积）为特征features；输出的预测值y（本例中为房价）为目标值target；拟合的曲线，一般表示为y = h(x)，称为假设模型hypothesis；训练集的条目数称为特征的维数，本例为47。

二、线性回归模型

　　线性回归模型假设输入特征和对应的结果满足线性关系。在上述的数据集中加上一维--房间数量，于是数据集变为：

机器学习中求参数的方法

　　于是，输入特征x是二维的矢量，比如x₁⁽ⁱ⁾表示数据集中第i个房子的面积，x₂⁽ⁱ⁾表示数据集中第i个房子的房间数量。于是可以假设输入特征x与房价y满足线性函数，比如：

机器学习中求参数的方法

这里θ_i称为假设模型即映射输入特征x与结果y的线性函数h的参数parameters，为了简化表示，我们在输入特征中加入x₀ = 1，于是得到：

机器学习中求参数的方法

参数θ和输入特征x都为矢量，n是输入的特征x的个数（不包含x₀）。

　　现在，给定一个训练集，我们应该怎么学习参数θ，从而达到比较好的拟合效果呢？一个直观的想法是使得预测值h(x)尽可能接近y，为了达到这个目的，我们对于每一个参数θ，定义一个代价函数cost function用来描述h(x⁽ⁱ⁾)'与对应的y⁽ⁱ⁾'的接近程度：

机器学习中求参数的方法

前面乘上的1/2是为了求导的时候，使常数系数消失。于是我们的目标就变为了调整θ使得代价函数J(θ)取得最小值，方法有梯度下降法，最小二乘法等。

三、求参数θ的方法

　　3.1 梯度下降法

　　现在我们要调整θ使得J(θ)取得最小值，为了达到这个目的，我们可以对θ取一个随机初始值（随机初始化的目的是使对称失效），然后不断地迭代改变θ的值来使J(θ)减小，知道最终收敛取得一个θ值使得J(θ)最小。梯度下降法就采用这样的思想：对θ设定一个随机初值θ_0，然后迭代进行以下更新

机器学习中求参数的方法

直到收敛。这里的α称为学习率learning rate。

　　梯度方向由J(θ)对θ 的偏导数决定，由于要求的是最小值，因此对偏导数取负值得到梯度方向。将J(θ)代入得到总的更新公式

机器学习中求参数的方法

这样的更新规则称为LMS update rule（least mean squares），也称为Widrow-Hoﬀ learning rule。

　　对于如下更新参数的算法：

机器学习中求参数的方法

由于在每一次迭代都考察训练集的所有样本，而称为批量梯度下降batch gradient descent。对于引言中的房价数据集，运行这种算法，可以得到θ₀ = 71.27, θ₁ = 1.1345，拟合曲线如下图：

机器学习中求参数的方法

　　如果参数更新计算算法如下：

机器学习中求参数的方法

这里我们按照单个训练样本更新θ的值，称为随机梯度下降stochastic gradient descent。比较这两种梯度下降算法，由于batch gradient descent在每一步都考虑全部数据集，因而复杂度比较高，随机梯度下降会比较快地收敛，而且在实际情况中两种梯度下降得到的最优解J(θ)一般会接近真实的最小值。所以对于较大的数据集，一般采用效率较高的随机梯度下降法。

　　3.2 最小二乘法（LMS）

　　梯度下降算法给出了一种计算θ的方法，但是需要迭代的过程，比较费时而且不太直观。下面介绍的最小二乘法是一种直观的直接利用矩阵运算可以得到θ值的算法。为了理解最小二乘法，首先回顾一下矩阵的有关运算：

　　假设函数f是将m*n维矩阵映射为一个实数的运算，即机器学习中求参数的方法，并且定义对于矩阵A，映射f(A)对A的梯度为：