![Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型 Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型](https://image.shishitao.com:8440/aHR0cHM6Ly9ia3FzaW1nLmlrYWZhbi5jb20vdXBsb2FkL2NoYXRncHQtcy5wbmc%2FIQ%3D%3D.png?!?w=700&webp=1)
(一)牛顿法解最大似然估计
Method)与梯度下降(Gradient
Descent)方法的功能一样,都是对解空间进行搜索的方法。其基本思想如下:
我们先随机选一个点,然后求出该点的切线,即导数,延长它使之与x轴相交,以相交时的x的值作为下一次迭代的值。
那么如何将牛顿方法应用到机器学习问题求解中呢?
![Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型 Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型](https://image.shishitao.com:8440/aHR0cDovL3MxNC5zaW5haW1nLmNuL213NjkwLzAwMnhsQTBQZ3k2VkJSbDF1N3JhZCY2OTA%3D.jpg?w=700&webp=1)
上面是当参数θ为实数时的情况,当参数为向量时,更新规则变为如下所示:
其中,H是一个n*n的矩阵,n为参数向量的长度,亦即特征的数目,H是函数的二次导数矩阵,被称为Hessian矩阵,其某个元素Hij计算公式如下:即为
,这里有点类似于用一阶导数
除以二阶导数;所以,用一个表示一阶导数的向量乘上一个表示二阶导数的矩阵的逆。
![Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型 Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型](https://image.shishitao.com:8440/aHR0cDovL3M3LnNpbmFpbWcuY24vbXc2OTAvMDAyeGxBMFBneTZWQlN1eGhJT2Y2JjY5MA%3D%3D.jpg?w=700&webp=1)
其中,η称为分布的自然参数(nature parameter);T(y)是充分统计量(sufficient
statistic),通常T(y)=y。当参数a、b、T都固定时,就定义了一个以η为参数的函数族。
顾客数量等问题;
![Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型 Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型](https://image.shishitao.com:8440/aHR0cDovL3MyLnNpbmFpbWcuY24vbXc2OTAvMDAyeGxBMFBneTZWQlQ0dWtxQmYxJjY5MA%3D%3D.jpg?w=700&webp=1)
将其转换形式,推导如下:
通过上式,就将伯努利分布表示成了指数分布的形式;其中:
可以看到,η的形式与之前提及的logistic函数一致,这是因为logistic模型对问题的前置概率估计是伯努利分布的缘故。
由上式可知:
推导的关键在于将指数内部的纯y项移到外面,纯非y项作为函数a,混杂项为。
Linear Model,GLM)。在伯努利分布表示成指数分布族的形式的公式中,η与参数φ的关系是logistic函数,再通过推导可以得到逻辑回归(推导过程在下面);在高斯分布表示成指数分布族的形式的公式中,η与正太分布的参数μ的关系是相等,我们可以推导出最小二乘模型(Ordinary
Least Squares)。通过这两个例子,我们大致可以得到结论,η以不同的映射函数与其它概率分布函数中的参数发生联系,从而得到不同的模型,广义线性模型正式将指数分布族中的所有成员(每个成员正好有一个这样的联系)都作为线性模型的扩展,通过各种非线性的连接函数将线性函数映射到其它空间从而大大扩大了线性模型可解决的问题。
![Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型 Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型](https://image.shishitao.com:8440/aHR0cDovL3M5LnNpbmFpbWcuY24vbXc2OTAvMDAyeGxBMFBneTZWQlpHZWw1SzA4JjY5MA%3D%3D.jpg?w=700&webp=1)
![Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型 Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型](https://image.shishitao.com:8440/aHR0cDovL3MxLnNpbmFpbWcuY24vbXc2OTAvMDAyeGxBMFBneTZWQlpMUjlNUTYwJjY5MA%3D%3D.jpg?w=700&webp=1)
依据这三个假设,我们可以推导出ogistic模型与最小二乘模型。Logistic模型的推导过程如下:
上式中,第一行是伯努利分布的性质,第二行由假设二与假设三推出。
同样的,对于最小二乘模型,推导过程如下:
其中,将η与原始概率分布中的参数联系起来的函数称为正则响应函数(canonical response
function),如即是正则响应函数。正则响应函数的逆称为正则关联函数(canonical
link function)。
![Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型 Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型](https://image.shishitao.com:8440/aHR0cDovL3MxMC5zaW5haW1nLmNuL213NjkwLzAwMnhsQTBQZ3k2VkMwcmJGUDM1OSY2OTA%3D.jpg?w=700&webp=1)
多项式分布推导出的GLM可以解决多分类问题,是logistic模型的扩展。应用的问题比如邮件分类、预测病人患的什么病等。
![Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型 Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型](https://image.shishitao.com:8440/aHR0cDovL3M2LnNpbmFpbWcuY24vbXc2OTAvMDAyeGxBMFBneTZWQ0xETkhWMzg1JjY5MA%3D%3D.jpg?w=700&webp=1)
其中,因为
![Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型 Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型](https://image.shishitao.com:8440/aHR0cDovL3MzLnNpbmFpbWcuY24vbXc2OTAvMDAyeGxBMFBneTZWQ0xIb2VOSTUyJjY5MA%3D%3D.jpg?w=700&webp=1)
为了使多项式分布能够写成指数分布族的形式,首先定义T(y),如下所示:
这样,我们还可以引入指示函数I,使得
这样,T(y)向量中的某个元素还可以表示成: 举例来说,当y=2时,
。根据上式,我们还可以得到:
于是,二项分布转变为指数分布族的推导如下:
上式中最后一步的各个分量分别如下:
由η表达式可知:
为了表示方便,再定义: 于是,可以得到:
代入,得到:
![Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型 Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型](https://image.shishitao.com:8440/aHR0cDovL3MxNi5zaW5haW1nLmNuL213NjkwLzAwMnhsQTBQZ3k2VkNPUU5YN0YzZiY2OTA%3D.jpg?w=700&webp=1)
从而,我们就得到了连接函数,有了连接函数后,就可以把多项式分布的概率表达出来,即将上式代入
注意到,上式中的每个参数η都是一个可用线性向量表示出来的,因而这里的θ其实是一个二维矩阵。
![Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型 Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型](https://image.shishitao.com:8440/aHR0cDovL3M5LnNpbmFpbWcuY24vbXc2OTAvMDAyeGxBMFBneTZWQ1B0dGFocWU4JjY5MA%3D%3D.jpg?w=700&webp=1)
那么如何根据假设函数h求得参数θ,当然还是最大似然函数的方法,最大似然函数如下:
对上式取对数,得到如下最大似然函数:
然后,将
![Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型 Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型](https://image.shishitao.com:8440/aHR0cDovL3MxNi5zaW5haW1nLmNuL213NjkwLzAwMnhsQTBQZ3k2VkNPUU5YN0YzZiY2OTA%3D.jpg?w=700&webp=1)
regression。