[LNU.Machine Learning.Question.1]梯度下降方法的一些理解

曾经学习machine learning,在regression这一节,对求解最优化问题的梯度下降方法，理解总是处于字面意义上的生吞活剥。

对梯度的概念感觉费解?到底是标量还是矢量?为什么沿着负梯度方向函数下降最快?想清楚的回答这些问题。还真须要点探究精神。

我查阅了一些经典的资料(包含wiki百科),另一些个人的博客,比方

p=2573">http://www.codelast.com/?p=2573

,http://blog.****.net/xmu_jupiter/article/details/22220987,都对梯度下降概念有个大概的直观解释,參照这些资料中的内容，再结合个人的体会，姑且谈谈.

1.为什么在多元函数自变量的研究中引入方向?

在自变量为一维的情况下，也就是自变量能够视为一个标量，此时，一个实数就能够代表它了。这个时候，假设要改变自变量的值，则其要么减小，要么添加。也就是“非左即右“。

所以，说到“自变量在某个方向上移动”这个概念的时候，它并非十分明显；而在自变量为n（n≥2）维的情况下。这个概念就实用了起来：假设自变量X为3维的，即每个X是（x1, x2, x3）这种一个点，当中x1，x2和x3各自是一个实数，即标量。

那么，假设要改变X。即将一个点移动到还有一个点，你怎么移动？能够选择的方法太多了，比如。我们能够令x1。x2不变，仅使x3改变，也能够令x1，x3不变。仅使x2改变。等等。这些做法也就使得我们有了”方向“的概念。由于在3维空间中，一个点移动到还有一个点，并非像一维情况下那样“非左即右”的。而是有“方向”的。在这种情况下，找到一个合适的”方向“，使得从一个点移动到还有一个点的时候。函数值的改变最符合我们预定的要求（比如。函数值要减小到什么程度），就变得十分有必要了。

2.为什么是梯度下降（Gradient Descent）

依据*的定义，假设实值函数 [LNU.Machine Learning.Question.1]梯度下降方法的一些理解在点处可微且有定义，那么函数在点沿着梯度相反（什么是梯度？这也要问？）的方向下降最快。因而我们在回归所导出的优化问题中採用梯度下降的方法来寻找最长处问题

[LNU.Machine Learning.Question.1]梯度下降方法的一些理解

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbGl1NnRvdA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

3.那么。为什么方向 [LNU.Machine Learning.Question.1]梯度下降方法的一些理解下降最快？

爱问为什么的学生死得快（ [LNU.Machine Learning.Question.1]梯度下降方法的一些理解）.解释这一问题，还须要用到Taylor展开，回顾：

[LNU.Machine Learning.Question.1]梯度下降方法的一些理解

在梯度的概念下。这个式子能够进一步化为：

[LNU.Machine Learning.Question.1]梯度下降方法的一些理解（a）

[LNU.Machine Learning.Question.1]梯度下降方法的一些理解

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbGl1NnRvdA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">：代表第k个点的自变量（一个向量）。

d：单位方向（一个向量）。即 |d|=1。

[LNU.Machine Learning.Question.1]梯度下降方法的一些理解：步长（一个实数）。