线性回归

之一元线性回归

一元的是只有一个x和一个y：y=mx+b;多元的指有多个x和一个y:y=m1x1+m2x2+b。

方法：找到一条直线，这条直线能以最小的误差（Loss）来拟合数据。

怎样表示误差

找每个点和直线的距离实验室作业-2018.4.27

最小的那条线，为简单起见，将绝对值转化为平方，那么误差可以表示为实验室作业-2018.4.27

，这里i表示第i个数据，N表示总的样本个数。一般我们还会把Loss求和平均，来当做最终的损失，即实验室作业-2018.4.27

怎样最小化误差

1）最小二乘法

我们定义的损失为

，其中的x,y,i,N都是已知的，那么我们就可以把这个方程看做是m和b的方程。那么求Loss最小值的问题就转变成了求极值问题。

怎样求极值

令每个变量的方程组为零，求方程组的解。

求出m和b

梯度下降法

通过一步一步地迭代，慢慢地去靠近那条最优直线。

最小二乘法里面提到的两个偏导数分别为

而当我们不用最小二乘法求时，我们使用沿着梯度方向一点一点下滑的方法慢慢接近最小值。需要定义步长，用来表示每次滑多长；再定义一个迭代值用来表示滑多少次。

实现：

定义好之后我们一边求梯度，一边向下滑。也就是去更新m和b：

代价函数

对于线性回归而言，函数h的表达式如下：

实验室作业-2018.4.27

我们通常指定：实验室作业-2018.4.27

如果使用线性代数来表达的话

实验室作业-2018.4.27 ,

, 其中

是

矩阵的转置。

那么对于一系列训练数据，如何获得最优的实验室作业-2018.4.27 成为解决问题的核心。直观上而言，我们希望获取一组值，使得h(x)越接近y越好。于是定义这个衡量标准为代价函数如下：

我们看下两个参数的Cost Function图像通常如下：

实验室作业-2018.4.27

它是一个弓形的图像，这个弓形的最低点就是实验室作业-2018.4.27 的最优解。

梯度下降算法

对于线性回归问题，我们需要解决的事情往往如下：

定义出

希望能够找到一组实验室作业-2018.4.27 ，能够最小化，即

梯度下降算法步骤如下：

1. 随机选择一组实验室作业-2018.4.27

2. 不断的变化实验室作业-2018.4.27 ，让变小

实验室作业-2018.4.27

j=0,1,...n，实验室作业-2018.4.27 是所有n+1个值同时进行变化。α 是代表学习速率。是Cost Function对的偏导数。

希望能够找到一组实验室作业-2018.4.27 ，能够最小化，即

梯度下降算法步骤如下：

1. 随机选择一组实验室作业-2018.4.27

2. 不断的变化实验室作业-2018.4.27 ，让变小

实验室作业-2018.4.27

j=0,1,...n，实验室作业-2018.4.27 是所有n+1个值同时进行变化。α 是代表学习速率。是Cost Function对的偏导数。

希望能够找到一组实验室作业-2018.4.27 ，能够最小化，即

梯度下降算法步骤如下：

1. 随机选择一组实验室作业-2018.4.27

2. 不断的变化实验室作业-2018.4.27 ，让变小

实验室作业-2018.4.27

j=0,1,...n，实验室作业-2018.4.27

是所有n+1个值同时进行变化。α 是代表学习速率。实验室作业-2018.4.27

是Cost Function对实验室作业-2018.4.27

的偏导数。直到寻找到最小值。

偏导求解如下：

实验室作业-2018.4.27

因此最终的梯度下降算法表达如下：

实验室作业-2018.4.27

从Cost Function的图上，我们可以看到选择最优解的过程

实验室作业-2018.4.27

　　　　　　　　　　　寻找到局部最优解1

寻找到局部最优解2

从上面两个图可以看出，寻找最优解的过程很想是在下山，沿着下山的路下来，并最终到达一个局部的底部保持不变。

正规方程

梯度下降算法给出了一种方法可以最小化Cost Function。正规方程（Normal Equation）是另外一种方法，它使用非常直接的方式而不需要进行迭代的算法。在这个方法中，我们通过对J取对应的实验室作业-2018.4.27 的偏导数，然后将偏导数设置为0。通过推导，正规方程如下：

梯度下降算法和正规方程对比如下：实验室作业-2018.4.27

因此两种方法能否工作取决于n（特征x的数量）的大小，如果n很大（> 10000），那么使用梯度下降算法是比较明智的选择。

逻辑回归

1、总述

逻辑回归是应用非常广泛的一个分类机器学习算法，它将数据拟合到一个logit函数(或者叫做logistic函数)中，从而能够完成对事件发生的概率进行预测。

2、由来

要说逻辑回归，我们得追溯到线性回归，想必大家对线性回归都有一定的了解，即对于多维空间中存在的样本点，我们用特征的线性组合去拟合空间中点的分布和轨迹。如下图所示：

实验室作业-2018.4.27

线性回归能对连续值结果进行预测，而现实生活中常见的另外一类问题是，分类问题。最简单的情况是是与否的二分类问题。比如说医生需要判断病人是否生病，银行要判断一个人的信用程度是否达到可以给他发信用卡的程度，邮件收件箱要自动对邮件分类为正常邮件和垃圾邮件等等。

当然，我们最直接的想法是，既然能够用线性回归预测出连续值结果，那根据结果设定一个阈值是不是就可以解决这个问题了呢？事实是，对于很标准的情况，确实可以的，这里我们套用Andrew Ng老师的课件中的例子，下图中X为数据点肿瘤的大小，Y为观测结果是否是恶性肿瘤。通过构建线性回归模型，如hθ(x)所示，构建线性回归模型后，我们设定一个阈值0.5，预测hθ(x)≥0.5的这些点为恶性肿瘤，而hθ(x)<0.5为良性肿瘤。

实验室作业-2018.4.27

但很多实际的情况下，我们需要学习的分类数据并没有这么精准，比如说上述例子中突然有一个不按套路出牌的数据点出现，如下图所示：

实验室作业-2018.4.27

你看，现在你再设定0.5，这个判定阈值就失效了，而现实生活的分类问题的数据，会比例子中这个更为复杂，而这个时候我们借助于线性回归+阈值的方式，已经很难完成一个鲁棒性很好的分类器了。

在这样的场景下，逻辑回归就诞生了。它的核心思想是，如果线性回归的结果输出是一个连续值，而值的范围是无法限定的，那我们有没有办法把这个结果值映射为可以帮助我们判断的结果呢。而如果输出结果是 (0,1) 的一个概率值，这个问题就很清楚了。我们在数学上找了一圈，还真就找着这样一个简单的函数了，就是很神奇的sigmoid函数(如下)：

实验室作业-2018.4.27