机器学习中求参数的方法

时间:2024-03-22 07:39:49

一、引言

机器学习中的回归问题属于有监督学习的范畴。回归问题的目标是给定D维输入变量x,并且每一个输入矢量x都有对应的值y,要求对于新来的数据预测它对应的连续的目标值t。比如下面这个例子:假设我们有一个包含47个房子的面积和价格的数据集如下:

 机器学习中求参数的方法

我们可以在Matlab中画出来这组数据集,如下:

机器学习中求参数的方法

  看到画出来的点,是不是有点像一条直线?我们可以用一条曲线去尽量拟合这些数据点,那么对于新来的输入,我么就可以将拟合的曲线上返回对应的点从而达到预测的目的。如果要预测的值是连续的比如上述的房价,那么就属于回归问题;如果要预测的值是离散的即一个个标签,那么就属于分类问题。这个学习处理过程如下图所示:

机器学习中求参数的方法

  上述学习过程中的常用术语:包含房子面积和价格的数据集称为训练集training set;输入变量x(本例中为面积)为特征features;输出的预测值y(本例中为房价)为目标值target;拟合的曲线,一般表示为y = h(x),称为假设模型hypothesis;训练集的条目数称为特征的维数,本例为47。

二、线性回归模型

  线性回归模型假设输入特征和对应的结果满足线性关系。在上述的数据集中加上一维--房间数量,于是数据集变为:

机器学习中求参数的方法

  于是,输入特征x是二维的矢量,比如x1(i)表示数据集中第i个房子的面积,x2(i)表示数据集中第i个房子的房间数量。于是可以假设输入特征x与房价y满足线性函数,比如:

机器学习中求参数的方法

 

 

这里θi称为假设模型即映射输入特征x与结果y的线性函数h的参数parameters,为了简化表示,我们在输入特征中加入x0 = 1,于是得到:

机器学习中求参数的方法

参数θ和输入特征x都为矢量,n是输入的特征x的个数(不包含x0)。

  现在,给定一个训练集,我们应该怎么学习参数θ,从而达到比较好的拟合效果呢?一个直观的想法是使得预测值h(x)尽可能接近y,为了达到这个目的,我们对于每一个参数θ,定义一个代价函数cost function用来描述h(x(i))'与对应的y(i)'的接近程度:

机器学习中求参数的方法

前面乘上的1/2是为了求导的时候,使常数系数消失。于是我们的目标就变为了调整θ使得代价函数J(θ)取得最小值,方法有梯度下降法,最小二乘法等。

 三、求参数θ的方法

  3.1 梯度下降法

  现在我们要调整θ使得J(θ)取得最小值,为了达到这个目的,我们可以对θ取一个随机初始值(随机初始化的目的是使对称失效),然后不断地迭代改变θ的值来使J(θ)减小,知道最终收敛取得一个θ值使得J(θ)最小。梯度下降法就采用这样的思想:对θ设定一个随机初值θ0,然后迭代进行以下更新

机器学习中求参数的方法

直到收敛。这里的α称为学习率learning rate。

  梯度方向由J(θ)对θ 的偏导数决定,由于要求的是最小值,因此对偏导数取负值得到梯度方向。将J(θ)代入得到总的更新公式

机器学习中求参数的方法

这样的更新规则称为LMS update rule(least mean squares),也称为Widrow-Hoff learning rule。

  对于如下更新参数的算法:

机器学习中求参数的方法

由于在每一次迭代都考察训练集的所有样本,而称为批量梯度下降batch gradient descent。对于引言中的房价数据集,运行这种算法,可以得到θ0 = 71.27, θ1 = 1.1345,拟合曲线如下图:

机器学习中求参数的方法

  如果参数更新计算算法如下:

机器学习中求参数的方法

这里我们按照单个训练样本更新θ的值,称为随机梯度下降stochastic gradient descent。比较这两种梯度下降算法,由于batch gradient descent在每一步都考虑全部数据集,因而复杂度比较高,随机梯度下降会比较快地收敛,而且在实际情况中两种梯度下降得到的最优解J(θ)一般会接近真实的最小值。所以对于较大的数据集,一般采用效率较高的随机梯度下降法。

  3.2 最小二乘法(LMS)

  梯度下降算法给出了一种计算θ的方法,但是需要迭代的过程,比较费时而且不太直观。下面介绍的最小二乘法是一种直观的直接利用矩阵运算可以得到θ值的算法。为了理解最小二乘法,首先回顾一下矩阵的有关运算:

  假设函数f是将m*n维矩阵映射为一个实数的运算,即机器学习中求参数的方法,并且定义对于矩阵A,映射f(A)对A的梯度为:

机器学习中求参数的方法

因此该梯度为m*n的矩阵。例如对于矩阵A=机器学习中求参数的方法,而且映射函数f(A)定义为:F(A) = 1.5A11 + 5A122 + A21A22,于是梯度为:

机器学习中求参数的方法

  另外,对于矩阵的迹的梯度运算,有如下规则:

机器学习中求参数的方法

  下面,我们将测试集中的输入特征x和对应的结果y表示成矩阵或者向量的形式,有:

机器学习中求参数的方法机器学习中求参数的方法

对于预测模型有机器学习中求参数的方法,即机器学习中求参数的方法,于是可以很容易得到:

机器学习中求参数的方法

所以可以得到机器学习中求参数的方法

  于是,我们就将代价函数J(θ)表示为了矩阵的形式,就可以用上述提到的矩阵运算来得到梯度:

机器学习中求参数的方法

令上述梯度为0,得到等式:机器学习中求参数的方法,于是得到θ的值:

机器学习中求参数的方法。这就是最小二乘法得到的假设模型中参数的值。

3.3最大似然估计法

Reference

https://www.cnblogs.com/fanyabo/p/4060498.html