Logistic regression is a method for classifying data into discrete outcomes. For example, we might use logistic regression to classify an email as spam or not spam. In this module, we introduce the notion of classification, the cost function for logistic regression, and the application of logistic regression to multi-class classification.

We’ll introduce regularization, which helps prevent models from overfitting the training data.

Logistic Regression逻辑回归

Classification and Representation分类与表示

Classification分类问题

总结：

线性回归和逻辑回归的核心区别？（为什么不能用线性回归处理逻辑回归问题？）线性回归是给定连续型自变量，预测出连续型输出，本质就是一个简单的多项式函数（或其他），用于直接拟合训练集的点；而逻辑回归，首先，其输出是离散的，有限的，这是一个分类问题，最常见的是二元分类，是或否，为了限制输出，必须进行映射，逻辑上，我们将是的点映射到一边，将否的点映射到另一边。
逻辑回归中，决策边界是假设函数的一个属性，并非我们认为重新设置的。它们是一个很巧妙的耦合。
逻辑回归难就难在，函数是嵌套的，逻辑函数、内层决策边界函数，不容易理解。
不是所有的训练集中的元素都是有用的，都能带来有用信息的。

在这个以及接下来的几个视频中我想开始介绍分类问题 在分类问题中你要预测的变量 y 是离散的值我们将学习一种叫做 逻辑回归 (Logistic Regression) 的算法这是目前最流行使用最广泛的一种学习算法

下面是一些分类问题的例子此前我们谈到的电子邮件 垃圾邮件分类 就是一个分类问题另一个例子是网上交易的分类问题 比如一个卖东西的网站如果你想了解一个实体的交易是不是欺诈或者某人是否在使用偷来的信用卡或者是盗用了别的用户的密码这也是分类问题之前我们也谈到了 肿瘤分类问题的例子区别一个肿瘤是恶性的还是良性的

在所有的这些问题中我们想要预测的变量是变量 y 我们可以认为它能够取两个值 0 或 1 是或者不是垃圾邮件是或者不是欺诈恶性或良性 标记为0的类 还有一个名字叫做负类 (negative class) 标记为1的类 也叫做正类 (positive class) 因此0可能代表良性肿瘤 1也就是说正类可能标记一个恶性肿瘤对于两种类别的分配垃圾邮件或者不是垃圾邮件等等将两个类别标记为正类或负类 0 或 1 是任意的其实怎样都可以但是通常从直觉上来讲 负类总是表达缺少某样东西的意思 比如缺少恶性肿瘤而 1 正类就会表示存在某样我们寻找的东西但是哪个是负类哪个是正类的定义有时是任意的它并不太重要现在我们要开始研究只有两类 0 和 1 的分类问题

以后我们将讨论多类别问题 多类别问题中的变量 y 的取值可以是 0 1 2 和 3 或更多这就是所谓的多类分类问题 但在接下来的几个视频中让我们从两类分类问题或者叫二元分类问题开始我们以后再关心多类的问题

为什么不能用线性回归手段解决逻辑回归问题？

那我们怎样开发一个分类算法呢？下面是一个训练集的例子这个训练集是用来给一个肿瘤分类为恶性或者良性的注意这个恶性值 (malignancy) 只取两个值 0也就是非(恶性) 和 1 也就是是(恶性) 所以拿到这个训练集我们可以做的一个事情是将一个我们已知的算法 线性回归用于这组数据尝试用一条直线来拟合数据 所以如果用一条直线拟合这个训练集你有可能得到看起来像这样的假设函数 好了这是我的假设函数 h(x) 等于 θ 的转置乘以 x 如果你想进行预测如果你想进行预测你可以尝试将分类器的输出阈值设为0.5 这是纵轴上0.5的位置如果假设输出的值大于等于 0.5 你就预测 y 值等于 1 如果小于0.5 预测y等于0

让我们看看当我们这样做的时候会发生什么所以让我们取 0.5 所以这就是阈值的位置就这样使用线性回归算法 这个点右边的所有点我们会将它们全部预测为正类因为它们的输出值在纵轴上都是大于0.5的在这一点左侧的所有点我们会预测它们全部为负在这个特定的例子中看起来好像线性回归所做的实际上是合理的尽管我们感兴趣的是一个分类问题

现在我们把问题稍微改一下让我来延长一下横轴 让我来延长一下横轴假如说新增一个训练样本 在很远的右边那里注意这个额外的训练样本这里这个它实际上并没有改变什么 对不对 ? 看一下训练集相当清楚一个很好的假设是什么在这儿附近的某个点它右侧的所有点我们都应该预测为正而它左侧的所有点我们应该预测为负因为从这个训练集来看因为从这个训练集来看好像所有大于这附近的某个特定值的肿瘤都是恶性的小些的肿瘤都是非恶性的至少对于这个训练集是这样但是一旦我们在这里增加了额外的样本如果你现在运行线性回归 拟合数据得到这样一条直线它可能看起来像这样如果你现在将假设阈值设为0.5 你最后得到的阈值位置大概在这里所以对这个点右侧的所有点你都将预测为正它左侧的都预测为负这样看起来 线性回归的效果并不好 对不对因为这些是我们的正样本这些是我们的负样本可以清楚地看出我们真的应该把两类从这附近的某个点分开但是因为在极右侧添加了一个训练样本而这个训练样本并没有真的给我们任何新的信息 我的意思是应该不出意外这个样本的学习结果为恶性但不知何故通过在这里添加一个样本 导致线性回归算法用来拟合数据的直线从这里洋红线改变到从这里洋红线改变到这条蓝线这里结果使我们得到一条更不好的假设

因此应用线性回归 来解决分类问题通常不是一个好主意在第一个例子中在我追加那个额外的训练样本之前线性回归只是碰巧了得到了适用于这个特殊例子的假设但是通常来说对一组数据使用线性回归你可能会很幸运但往往不是一个好想法所以我不会用线性回归算法来解决分类问题

这里还有一个有趣的事情如果我们要用线性回归算法来解决一个分类问题对于分类我们知道 y 取值为 0 或者 1 但如果你使用的是线性回归那么假设函数的输出值可能远大于 1 或者远小于 0 即使所有 训练样本的标签 y 都等于 0 或 1 这看起来有点儿奇怪尽管我们知道标签应该取值 0 或者 1 但是如果算法得到的值远大于1或者远小于0的话就会感觉很奇怪

所以我们在接下来的几个视频中要研究的算法就叫做逻辑回归算法 这个算法的性质是它的输出值永远在 0 到 1 之间 并不会大于 1 也不会小于 0 顺便说一下 逻辑回归算法 是分类算法 并且我们将它作为分类算法使用有时候可能因为这个算法的名字中出现了“回归”使你感到困惑但逻辑回归算法 实际上是一种分类算法 但是这只是因为历史原因而被这样称呼所以千万不要被迷惑逻辑回归实际上是一个分类算法它适用于标签 y 取值离散的情况如 1 0 0 1 所以希望你现在知道为什么对一个分类问题使用线性回归算法并不是一个好主意

在接下来的视频中我们将开始学习 逻辑回归算法的细节

Hypothesis Representation假设函数表达式

总结：

假设函数表达式？逻辑函数和普通假设函数的嵌合：h(x)=θT*x；h(x)=g(θT*x)；g(z)=1/(1+e^(-z))。
如何用参数θ拟合数据？后面会专门讲
如何理解逻辑回归模型？h(x)=P(y=1|x;θ)

让我们开始谈谈逻辑回归 在这段视频中我要给你展示假设函数的表达式 也就是说在分类问题中要用什么样的函数来表示我们的假设

此前我们说过希望我们的分类器 的输出值在0和1之间 因此我们（目的）希望想出一个满足某个性质的假设函数 这个性质是它的预测值要在0和1之间 当我们使用线性回归的时候这是一种假设函数的形式其中 h(x) 等于 θ 的转置乘以 x 对于逻辑回归来说我要把这个稍微改一下把假设函数改成 g(θ 的转置乘以 x)

其中我将定义 函数g如下：当z是一个实数时 g(z)=1/(1+e^(-z)) 这称为 S 型函数 (sigmoid function) 或逻辑函数

逻辑函数这个词就是逻辑回归名字的由来顺便说一下 S型函数和逻辑函数 基本上是同义词意思是一样的因此这两个术语基本上是可互换的哪一个术语都可以用来表示这个函数 g 如果我们把这两个方程 合并到一起 这是我的假设的另一种写法也就是说 h(x)=1/(1+e^(-θ 转置乘以 x)) 我所做的是把这个变量 z 这里 z 是一个实数把 θ 的转置乘以 x 代入到这里所以最后得到的是 θ 转置乘以 x 代替了这里的 z

最后我们看一下S型函数是什么样的我们在这儿绘制这个图形 S型函数 g(z) 也称为逻辑函数 看起来是这样的它开始接近0 然后上升直到在原点处达到0.5 然后它再次变平 像这样所以这就是S型函数的样子而且你注意S型函数而且你注意S型函数它渐近于1 然后随着横坐标的反方向趋向于0 随着 z 趋于负无穷随着 z 趋于负无穷 g(z) 趋近于零随着 z 趋于正无穷 g(z) 趋近于1 因为 g(z) 的取值因为 g(z) 的取值在0和1之间我们就得到 h(x) 的值必在0和1之间

（目的）最后有了这个假设函数 我们需要做的是和之前一样 用参数θ拟合我们的数据 所以拿到一个训练集 我们需要给参数 θ 选定一个值我们需要给参数 θ 选定一个值然后用这个假设函数做出预测（逻辑回归的模型已经确定）稍后我们将讨论一个用来拟合参数θ的学习算法

如何理解这个模型？

但是首先让我们讨论一下这个模型的解释 这就是我对假设函数 h(x) 的输出的解释当我的假设函数输出某个数我会认为这个数是 对于新输入样本 x 的 y 等于1的概率的估计值 我的意思是这样的

下面举个例子比方说我们来看肿瘤分类的例子 我们有一个特征向量 x 和平时一样 x0 等于 1 然后我们的特征变量 x1 是肿瘤的大小假设我有一个病人来了而且知道肿瘤的大小而且知道肿瘤的大小把他们的特征向量 x 代入我的假设函数假如假设函数的输出为0.7

我将解释我的假设如下我要说这个假设告诉我对于一个特征为 x 的患者对于一个特征为 x 的患者 y 等于 1 的概率是0.7 换句话说我要告诉我的病人非常遗憾肿瘤是恶性的可能性是70％或者说0.7

要更加正式的写出来或者说写成数学表达式 我的假设函数等于 P(y=1|x;θ) （涉及到大学数学里的概率论的知识） 对于熟悉概率的人应该能看懂这个式子如果你不太熟悉概率可以这么看这个表达式可以这么看这个表达式在给定 x 的条件下 y=1 的概率给定的 x 就是我的病人的特征 x 给定的 x 就是我的病人的特征 x 特征 x 代表了我的病人特定的肿瘤大小这个概率的参数是 θ 这个概率的参数是 θ

所以我基本上可以认为 假设函数给出的估计是 y=1 的概率是 y=1 的概率现在因为这是一个 分类的任务 我们知道 y 必须是0或1 对不对？它们是 y 可能取到的仅有的两个值无论是在训练集中或是对走进我的办公室或在未来进入医生办公室的新患者因此有了 h(x) 我们也可以计算 y=0 的概率具体地说因为 y 必须是0或1 我们知道 y=0 的概率加上 y=1 的概率必须等于1 这第一个方程看起来有点复杂

基本上就是说 给定参数 θ 对某个特征为 x 的病人 y=0 的概率和给定参数 θ 时对同一个特征为 x 的病人 y=1 的概率相加必须等于1 如果觉得这个方程看到起来有点儿复杂可以想象它没有 x 和 θ 这就是说 y=0 的概率加上 y=1 的概率必须等于1 我们知道这是肯定的因为 y 要么是0 要么是1 所以 y=0 的可能性和 y=1 的可能性它们俩相加肯定等于1 所以如果你只是把这一项移到右边你就会得到这个等式就是说 y=0 的概率等于1减去 y=1 的概率因此我们的假设函数 h(x) 给出的是这一项你可以简单地计算出这个概率你可以简单地计算出这个概率计算出 y=0 的概率的估计值计算出 y=0 的概率的估计值

所以你现在知道 逻辑回归的假设函数的表达式是什么我们看到了定义逻辑回归的 假设函数的数学公式

在接下来的视频中我想试着让你对假设函数是什么样子有一个更直观的认识我想告诉你一个被称为判定边界 (decision) 的东西一个被称为判定边界 (decision) 的东西我们会一起看一些可视化的东西可以更好地理解 逻辑回归的假设函数 到底是什么样子

Decision Boundary判定边界

总结：

如何直观认识假设函数？它是如何工作的？上节已经明确了假设函数的公式，也已经知道了其输出结果的意义。这里我们想知道，什么时候假设函数会预测1（或0）？根据逻辑函数性质，当内层大于0，逻辑函数就会大于0.5，就会预测1；内层就是θTx，就是我们下面要说的决策边界；最后决策边界θTx上面的点都会被预测得到1。（这就是假设函数运行的整个流程）
决策边界是什么？它是假设函数的一个内隐属性，与训练集无关，也不是我们构造出来的。
映射函数的地位？映射函数唯一的作用就是将正负无穷映射到0到1，真正与参数θ有关的函数是内层的函数，它决定了如何创建决策边界，决策边界是划分训练集的核心因素。

在过去的视频中我们谈到 逻辑回归中假设函数的表示方法现在我想告诉大家一个叫做 决策边界(decision boundary)的概念这个概念能更好地帮助我们理解逻辑回归的 假设函数在计算什么

假设函数是如何运行的？

让我们回忆一下这是我们上次写下的公式当时我们说 假设函数可以表示为 h(x)=g(θTx) 其中函数g 被称为S形函数（sigmoid function）看起来是应该是这样的形状它从零开始慢慢增加至1 逐渐逼近1 现在让我们更进一步来理解这个假设函数何时会将y预测为1 什么时候又会将 y预测为0 让我们更好的理解假设函数的应该是怎样的特别是当我们的数据有多个特征时

具体地说这个假设函数 输出的是 给定x时 y=1的概率 因此如果我们想预测y=1 还是等于0

我们可以这样做 只要该假设函数输出y=1的概率大于或等于0.5 那么这表示 y更有可能等于1而不是0 因此我们预测y=1 在另一种情况下如果预测y=1 的概率小于0.5 那么我们应该预测y=0 在这里我选择大于等于在这里我选择小于如果h(x)的值正好等于0.5 那么我们可以预测为1 也可以预测为0 但是这里我选择了大于等于因此我们默认如果h(x)等于0.5的话预测选择为1 这只是一个细节不用太在意

下面我希望大家能够清晰地理解什么时候h(x) 将大于或等于 0.5 从而我们最终预测y=1 如果我们看看 S形函数的曲线图我们会注意到 S函数只要z大于或等于0时 g(z)就将大于或等于0.5 因此在曲线图的这半边 g的取值大于或等于0.5 因为这个交点就是0.5 因此当z大于0时 g(z) 也就是这个 S形函数是大于或等于0.5的

由于逻辑回归的 假设函数h(x) 等于g(θTx) 因此函数值将会大于或等于0.5 只要θ转置乘以x 大于或等于0 因此我们看到因为这里θ转置x 取代了z的位置所以我们看到我们的假设函数将会预测y=1 只要θ转置乘以x 大于或等于0 现在让我们来考虑假设函数预测y=0的情况类似的 h(θ)将会小于0.5 只要 g(z)小于0.5 这是因为 z的定义域上导致g(z)取值小于0.5的部分是z小于0的部分所以当g(z)小于0.5时我们的假设函数将会预测 y=0 根据与之前类似的原因 h(x)等于 g(θTx) 因此只要 θ转置乘以x小于0 我们就预测y等于0

总结一下我们刚才所讲的我们看到如果我们要决定预测y=1 还是y=0 取决于 y=1的概率大于或等于0.5 还是小于0.5 这其实就等于说我们将预测y=1 只需要θ转置乘以x 大于或等于0 另一方面我们将预测y=0 只需要θ转置乘以x 小于0

通过这些我们能更好地理解如何利用逻辑回归的假设函数 来进行预测（通过转换，只需要考虑θTx与0的大小关系）

一个具体的例子

现在假设我们有一个训练集 就像幻灯片上的这个接下来我们假设我们的假设函数是 h(x)等于g() 括号里面是θ0加上θ1x1 加上θ2乘以x2 目前我们还没有谈到 如何拟合此模型中的参数 我们将在下一个视频中讨论这个问题但是假设我们 已经拟合好了参数 我们最终选择了如下值比方说我们选择θ0 等于-3 θ1 等于1 θ2等于1 因此这意味着我的参数向量将是 θ等于这样我们有了这样的一个参数选择 让我们试着找出 假设函数何时将预测y等于1 何时又将预测y等于0

使用我们在上一张幻灯片上展示的公式我们知道 y更有可能是1 或者说 y等于1的概率大于0.5 或者大于等于0.5 只要θ转置x 大于0 我刚刚加了下划线的这个公式 -3加上x1再加上x2 当然就是θ转置x 这是当θ等于我们选择的这个参数值时 θ转置乘以x的表达因此举例来说对于任何样本只要x1和x2满足这个等式也就是-3 加上x1再加x2 大于等于0 我们的假设函数就会认为 y等于1 的可能性较大或者说将预测y=1 我们也可以将-3放到不等式右边并改写为x1 加号x2大于等于3 这样是等价的我们发现这一假设函数将预测 y=1 只要 x1+x2大于等于3 让我们来看看这在图上是什么意思如果我写下等式 x1+x2等于3 这将定义一条直线如果我画出这条直线它将表示为这样一条线它通过通过x1轴上的3 和x2轴上的3 因此这部分的输入样本空间这一部分的 X1-X2平面对应x1加x2大于等于3 这将是上面这个半平面也就是所有上方和所有右侧的部分相对我画的这条洋红色线来说

所以我们的假设函数预测 y等于1的区域就是这片区域是这个巨大的区域是右上方的这个半平面让我把它写下来我将称它为 y=1区域与此相对 x1加x2 小于3的区域也就是我们预测 y等于0的区域是这一片区域你看到这也是一个半平面左侧的这个半平面是我们的假设函数预测y等于0的区域我想给这条线一个名字就是我刚刚画的这条洋红色线这条线被称为 决策边界（decision boundary）

具体地说这条直线满足x1+x2=3 它对应一系列的点 它对应 h(x)等于 0.5的区域 决策边界 也就是这条直线将整个平面分成了两部分其中一片区域假设函数预测y等于1 而另一片区域假设函数预测y等于0

决策边界的本质

我想澄清一下 决策边界是假设函数的一个属性，它包括参数θ0 θ1 θ2 在这幅图中我画了一个训练集 我画了一组数据让它更加可视化 但是即使我们去掉这个数据集这条决策边界和我们预测y等于1 与y等于0的区域它们都是 假设函数的属性 决定于其参数它不是数据集的属性 当然我们后面还将讨论 如何拟合参数 那时我们将使用训练集使用我们的数据来确定参数的取值但是一旦我们有确定的参数取值有确定的θ0 θ1 θ2 我们就将完全确定决策边界这时我们实际上并不需要在绘制决策边界的时候绘制训练集
非线性决策边界

现在让我们看一个 更复杂的例子（更复杂的内部函数） 和往常一样我使用十字 (X) 表示我的正样本 圆圈 (O) 的表示我的负样本 给定这样的一个训练集 我怎样才能使用逻辑回归 拟合这些数据呢？早些时候当我们谈论 多项式回归 或线性回归时我们谈到可以添加额外的 高阶多项式项 同样我们也可以对逻辑回归使用相同的方法

具体地说假如我的假设函数是这样的我已经添加了两个额外的特征 x1平方和x2平方所以我现在有5个参数 θ0 到 θ4 之前讲过我们会在下一个视频中讨论如何自动选择参数θ0到θ4的取值但是假设我已经使用了这个方法我最终选择θ0等于-1 θ1等于0 θ2等于0 θ3等于1 θ4等于1 这意味着在这个参数选择下我的参数向量 θ将是根据我们前面的讨论这意味着我的假设函数将预测 y=1 只要-1加x1平方加x2平方大于等于0 也就是θ转置我的θ转置乘以特征变量大于等于0的时候如果我将 -1放到不等式右侧我可以说我的假设函数将预测 y=1 只要x1平方加 x2的平方大于等于1 那么决策边界是什么样子的呢？好吧如果我们绘制 x1平方加 x2的平方等于1的曲线你们有些人已经知道这个方程对应半径为1 原点为中心的圆

所以这就是我们的决策边界 圆外面的一切我将预测 y=1 所以这里就是 y等于1的区域我们在这里预测y=1 而在圆里面我会预测y=0 因此通过增加这些 复杂的多项式特征变量 我可以得到更复杂的决定边界 而不只是用直线分开正负样本 在这个例子中我可以得到一个圆形的决策边界 再次强调决策边界 不是训练集的属性 而是假设本身及其参数的属性 只要我们给定了参数向量θ 圆形的决定边界就确定了我们不是用训练集来定义的决策边界我们用训练集来拟合参数θ 以后我们将谈论如何做到这一点但是一旦你有参数θ它就确定了决策边界让我重新显示训练集以方便可视化

最后让我们来看看一个更复杂的例子 我们可以得到 更复杂的决策边界吗？如果我有 高阶多项式特征变量 比如x1平方 x1平方乘以x2 x1平方乘以x2平方等等如果我有更高阶多项式那么可以证明你将得到更复杂的决策边界而逻辑回归 可以用于找到决策边界 例如这样一个椭圆或者参数不同的椭圆也许你可以得到一个不同的决定边界像这个样子一些有趣的形状或者更为复杂的例子你也可以得到决策边界看起来这样这样更复杂的形状在这个区域你预测y=1 在这个区域外面你预测y=0 因此这些高阶多项式 特征变量 可以让你得到非常复杂的决策边界 因此通过这些可视化图形 我希望告诉你什么范围的假设函数我们可以使用 逻辑回归来表示

现在我们知道了h(x)表示什么在下一个视频中我将介绍 如何自动选择参数θ 使我们能在给定一个训练集时我们可以根据数据自动拟合参数

Logistic Regression Model逻辑回归模型

Cost Function代价函数

总结：

如何拟合逻辑回归模型的参数θ？先从构建代价函数开始
改写代价函数？为何改写？如何改写？默认的代价函数为非凸函数，不利于寻参，为此我们根据代价函数的本质，构建了新的代价函数。

在这段视频中我们要讲 如何拟合逻辑回归模型的参数θ 具体来说我要定义用来拟合参数的优化目标或者叫代价函数

这便是监督学习问题中的 逻辑回归模型的拟合问题我们有一个训练集 里面有m个训练样本 像以前一样我们的每个样本用n+1维的特征向量表示同样和以前一样 x0 = 1 第一个特征变量或者说第0个特征变量一直是1 而且因为这是一个分类问题 我们的训练集具有这样的特征所有的y 不是0就是1 这是一个假设函数 它的参数是这里的这个θ 我要说的问题是

对于这个给定的训练集我们如何选择或者说如何拟合参数θ

以前我们推导线性回归时使用了这个代价函数 （请熟练默背出以前的代价函数公式，否则不用往后看了）我把这个写成稍微有点儿不同的形式不写原先的1/2m 我把1/2放到求和符号里面了

牢记改写后的代价函数：cost(h(x), y) = 1/2*(h(x)-y)^2

现在我想用 另一种方法 来写代价函数 去掉这个平方项把这里写成这样的形式定义这个代价函数Cost函数 等于这个等于这个1/2的平方根误差因此现在我们能更清楚的看到 代价函数是这个Cost函数（核心目的是为了构造凸函数，便于使用梯度下降算法） 在训练集范围上的求和或者说是1/m倍的这个代价项在训练集范围上的求和然后稍微简化一下这个式子去掉这些上标会显得方便一些所以直接定义 代价值(h(X), Y) 等于1/2倍的这个平方根误差

如何理解新的代价函数？

对这个代价项的理解是这样的这是我所期望的 我的学习算法 如果想要达到这个值也就是这个假设h(x) 所需要付出的代价这个希望的预测值是h(x) 而实际值则是y 干脆全部去掉那些上标好了显然在线性回归中代价值会被定义为这个这个代价值是 1/2乘以预测值h和实际值观测的结果y 的差的平方这个代价值可以很好地用在线性回归里但是我们现在要用在逻辑回归里如果我们可以最小化代价函数J里面的这个代价值它会工作得很好

但实际上如果我们使用这个代价值它会变成参数θ的非凸函数

我说的非凸函数是这个意思对于这样一个代价函数J(θ) 对于逻辑回归来说这里的h函数是非线性的对吧？它是等于 1 除以 1+e的-θ转置乘以X次方所以它是一个很复杂的非线性函数 如果对它取Sigmoid函数 然后把它放到这里然后求它的代价值再把它放到这里然后再画出 J(θ)长什么模样你会发现 J(θ)可能是一个这样的函数 有很多局部最优值 称呼它的正式术语是这是一个非凸函数 你大概可以发现如果你把梯度下降法 用在一个这样的函数上不能保证它会收敛到全局最小值相应地我们希望我们的代价函数J(θ) 是一个凸函数是一个单弓形函数大概是这样

所以如果对它使用梯度下降法 我们可以保证梯度下降法会收敛到该函数的全局最小值但使用这个平方代价函数的问题是因为中间的这个非常非线性的 sigmoid函数的出现导致J(θ)成为一个非凸函数 如果你要用平方函数定义它的话

所以我们想做的是另外找一个不同的代价函数 它是凸函数 使得我们可以使用很好的算法如梯度下降法 而且能保证找到全局最小值

我们构建的新的代价函数是什么？（牢记）

cost(h(x), y) = -log(h(X)) 当y=1时；

cost(h(x), y) = -log(1-h(X)) 当y=0时。

如何理解我们新的代价函数？

这个代价函数便是我们要用在逻辑回归上的我们认为这个算法要付的代价或者惩罚（这一句道出了代价函数的核心本质） 如果输出值是h(x) 或者换句话说假如说预测值h(x) 是一个数比如0.7 而实际上真实的标签值是y 那么代价值将等于 -log(h(X)) 当y=1时；以及-log(1-h(X)) 当y=0时。

这看起来是个非常复杂的函数但是让我们画出这个函数可以直观地感受一下它在做什么我们从y=1这个情况开始如果y等于1 那么这个代价函数是-log(h(X)) 如果我们画出它我们将h(X) 画在横坐标上我们知道假设函数的输出值是在0和1之间的对吧？所以h(X)的值在0和1之间变化如果你画出这个代价函数的样子你会发现它看起来是这样的

理解这个函数为什么是这样的一个方式是如果你画出log(z) z在横轴上它看起来会是这样它趋于负无穷这是对数函数的样子所以这里是0 这里是1 显然这里的Z 就是代表h(x)的角色因此 -log(Z)看起来这样就是翻转一下符号 -log(Z) 我们所感兴趣的是函数在0到1 之间的这个区间所以忽略那些所以只剩下曲线的这部分这就是左边这条曲线的样子

现在这个代价函数有一些有趣而且很好的性质首先你注意到如果y=1而且h(X)=1 也就是说如果假设函数刚好预测值是1 而且y刚好等于我预测的那么这个代价值等于0 对吧？这对应于… 这个曲线并不是平的曲线还在继续走首先注意到如果h(x)=1 如果假设函数预测Y=1 并且如果y确实等于1 那么代价值等于0 这对应于下面这个点对吧？如果h(X)=1 这里我们只需要考虑 y=1的情况如果h(x)等于1 那么代价值等于0 这是我们所希望的因为如果我们正确预测了输出值y 那么代价值是0

但是现在同样注意到 h(x)趋于0时所以那是h 当假设函数的输出趋于0时代价值激增并且趋于无穷我们这样描述体现出了这样一种直观的感觉那就是如果假设函数输出0 相当于说我们的假设函数说 Y=1的概率等于0 这类似于我们对病人说你有一个恶性肿瘤的概率也就是说 y=1的概率是0 就是说你的肿瘤完全不可能是恶性的 然而结果是病人的肿瘤确实是恶性的 所以如果y=1 即使我们告诉他们它发生的概率是0 它完全不可能是恶性的如果我们告诉他们这个和我们的确信程度并且最后我们是错的那么我们用非常非常大的代价值惩罚这个学习算法 它是被这样体现出来这个代价值趋于无穷 如果y=1 而h(x)趋于0 这是y=1时的情况

学来学去，云里雾里，是因为你没抓住核心。什么是代价函数？代价函数是以参数θ为自变量的函数，是通过模型预测值与真实值之间差距确定的代价值函数，目标是找到一系列的参数θ使得代价函数的值最小，确定参数θ，最终确定我们的模型。

如果抓不住核心，学起来真的是非常痛苦。

我们再来看看 y=0时代价值函数是什么样如果y=0 那么代价值是这个表达式如果画出函数 -log(1-z) 那么你得到的代价函数实际上是这样它从0到1 差不多这样如果你画出 y=0情况下的代价函数你会发现大概是这样它现在所做的是在h(X)趋于1时激增趋于正无穷因为它是说如果最后发现 y等于0 而我们却几乎非常肯定地预测 y=1的概率是1 那么我们最后就要付出非常大的代价值（以下这一段和前面重复了）让我们画出y=0时的代价函数所以如果y=0 这就是我们的代价值函数如果你看着这个表达式然后你画出 -log(1-Z) 如果你清楚它是什么样的你会得到这样一个图形这样随着横轴上的z 从0到1 如果你画出 y=0时的代价函数你会发现代价函数是这样的它所做的是代价函数会在这里激增趋于正无穷随着h(X)的增大而趋近于1 这体现了这样一个直观的感觉如果假设函数预测 h(X)=1 并且非常确定比如这样的概率是1 认为y肯定是1 但是最后发现 y其实等于0 这就必须要让假设函数或者学习算法付出一个很大的代价反过来如果h(x)=0 而且y=0 那么假设函数预测对了预测的是y=0 并且y就是等于0 并且Y就是等于0 那么代价值函数在这点上应该等于0

在这个视频中我们定义了 单训练样本的代价函数 凸性分析的内容是超出这门课的范围的但是可以证明我们所选的 代价值函数 会给我们一个凸优化问题 代价函数J(θ)会是一个凸函数 并且没有局部最优值

在下一个视频中我们会把单训练样本的代价函数的这些理念进一步发展然后给出 整个训练集的代价函数的定义我们还会找到一种比我们目前用的更简单的写法基于这些推导出的结果我们将应用梯度下降法 得到我们的逻辑回归算法

Simplified Cost Function and Gradient Descent简化的代价函数和梯度下降模型

总结：

如何简化代价函数？局部优化：-y log(h(x))- (1-y) log(1-h(x))；最终整体归一的代价函数：
如何运用梯度下降法来拟合逻辑回归的参数？得到整体的代价函数，套用之前的梯度下降算法公式，求导得到最终公式。
梯度下降法求参数的公式怎么写？

请默写出逻辑回归的完整代价函数（否则不用往后看了）：

我们之前的那个log只是单个点的代价值，我们还需要计算整个训练集的代价值。

在这段视频中我们将会找出一种稍微简单一点的方法来写代价函数 来替换我们现在用的方法同时我们还要弄清楚 如何运用梯度下降法 来拟合出逻辑回归的参数 因此听了这节课你就应该知道如何 实现一个完整的逻辑回归算法

这就是逻辑回归的代价函数 我们的整体代价函数 不同的训练样本假设函数 h(x) 对实际值 y(i) 进行预测所得到的不同误差算出的 Cost 函数值 并且这是我们之前算出来的一个单个样本的代价值我只是想提醒你一下对于分类问题 我们的训练集甚至其他不在训练集中的样本 y 的值总是等于0或1的 y 的值总是等于0或1的对吗？这就是 y 的数学定义决定的

由于 y 是0或1 我们就可以想出一个简单的方式来写这个代价函数

具体来说为了避免把代价函数写成两行 避免分成 y=1 或 y=0 两种情况来写我们要用一种方法来把这两个式子合并成一个 这将使我们更方便地写出代价函数并推导出梯度下降 具体而言我们可以如下写出代价函数 Cost(h(x), y) 可以写成以下的形式

-y log(h(x))- (1-y) log(1-h(x))

我马上就会给你演示这个表达式或等式与我们已经得出的代价函数的表达是完全等效的并且更加紧凑让我们来看看为什么会是这样

我们知道有两种可能情况 y 必须是0或1 因此我们假设 y 等于1 如果 y 是等于那么这个等式这个 Cost 值是等于如果 y 等于1 那么这一项等于1 1-y 将会等于零对吧？如果 y 等于1 那么 1-y 就是1-1 也就是0 因此第二项乘以0 就被消去了我们只留下了第一项 y倍的 log 项 -y 乘以 log(h(x)) y等于1 因此就等于 -log(h(x)) 这个等式正是我们在这里的 y=1 的情况另一种情况是如果 y=0 如果是这样的话那么写出的 Cost 函数就是这样的如果 y 是等于0 那么这一项就为0 而1-y 在y=0时 1-y 就是0 因为1-y就是 1-0 所以最后就等于1 这样 Cost 函数就简化为只有这最后一项对吧？因为第一项在这里乘以零所以它被消去了所以我们只剩下最后的这一项也就是 -log(1-h(x)) 你可以证明这里的这一项就是当y=0时的这一项因此这表明这样定义的 Cost 函数只是把这两个式子写成一种更紧凑的形式不需要分 y=1 或 y=0 来写直接写在一起只用一行来表示

这样我们就可以写出 逻辑回归的代价函数如下它是这样的就是 1/m 乘以后面这个 Cost 函数在这里放入之前定义好的 Cost 函数这个函数就完成了我们把负号放在外面我们为什么要把代价函数写成这种形式似乎我们也可以选择别的方法来写代价函数在这节课中我没有时间来介绍有关这个问题的细节但我可以告诉你这个式子是从统计学中的极大似然法得来的估计统计学的思路是如何为不同的模型有效地找出不同的参数同时它还有一个很好的性质它是凸的因此这就是基本上大部分人使用的逻辑回归代价函数如果我们不理解这些项如果你不知道什么是极大似然估计不用担心这里只是一个更深入更合理的证明而已在这节课中我没有时间去仔细讲解

根据这个代价函数为了拟合出参数我们怎么办呢？

我们要试图找尽量让 J(θ) 取得最小值的参数 θ 所以我们想要尽量减小这一项这将我们将得到某个参数 θ 最后如果我们给出一个新的样本假如某个特征 x 假如某个特征 x 我们可以用拟合训练样本的参数 θ 来输出对假设的预测来输出对假设的预测另外提醒你一下我们假设的输出实际上就是这个概率值 p(y=1|x;θ) 就是关于 x 以 θ 为参数 y=1 的概率你就把这个想成我们的假设就是估计 y=1 的概率

所以接下来要做的事情就是弄清楚如何最大限度地最小化代价函数 J(θ) 作为一个关于 θ 的函数这样我们才能为训练集拟合出参数 θ

最小化代价函数的方法是使用梯度下降法(gradient descent) 这是我们的代价函数如果我们要最小化这个关于 θ 的函数值这就是我们通常用的梯度下降法的模板我们要反复更新每个参数用这个式子来更新就是用它自己减去学习率 α 乘以后面的微分项 如果你知道一些微积分的知识你可以自己动手算一算这个微分项看看你算出来的跟我得到的是不是一样（复习一下基本的微积分知识）即使你不知道微积分也不用担心如果你计算一下的话你会得到的是这个式子我把它写在这里将后面这个式子在 i=1 到 m 上求和其实就是预测误差乘以 x(i)j 所以你把这个偏导数项放回到原来式子这里我们就可以将梯度下降算法写作如下形式我做的就是把前一张幻灯片中的那一行放到这里了所以如果你有 n 个特征也就是说参数向量θ 包括 θ0 θ1 θ2 一直到 θn 那么你就需要用这个式子来同时更新所有 θ 的值

现在如果你把这个更新规则和我们之前用在线性回归上的进行比较的话你会惊讶地发现这个式子正是我们用来做线性回归梯度下降的事实上如果你看一下前面的视频再仔细想想这个更新规则线性梯度下降规则实际上跟我蓝色框里写出来的式子是完全一样的

那么 线性回归和 逻辑回归是同一个算法吗？要回答这个问题我们要观察逻辑回归看看发生了哪些变化实际上假设的定义发生了变化所以对于线性回归假设函数是 h(x) 为 θ 转置乘以 x 而现在逻辑函数假设的定义已经发生了变化现在已经变成了这样的形式因此即使更新参数的规则看起来基本相同但由于假设的定义发生了变化所以逻辑函数的梯度下降跟线性回归的梯度下降实际上是两个完全不同的东西在先前的视频中当我们在谈论线性回归的梯度下降法时我们谈到了如何监控梯度下降法以确保其收敛我通常也把同样的方法用在逻辑回归中来监测梯度下降以确保它正常收敛希望你自己能想清楚如何把同样的方法应用到逻辑函数的梯度下降中

当使用梯度下降法 来实现逻辑回归时我们有这些不同的参数 θ 就是 θ0 到 θn 我们需要用这个表达式来更新这些参数我们还可以使用 for 循环来实现所以 for i=1 to n 或者 for i=1 to n+1 用一个 for 循环来更新这些参数值当然不用 for 循环也是可以的理想情况下我们更提倡使用向量化的实现 因此向量化的实现可以把所有这些 n 个参数同时更新一举搞定为了检查你自己的理解是否到位你可以自己想想应该怎么样实现这个向量化的实现方法

好的现在你知道如何实现逻辑回归的梯度下降 最后还有一个我们之前在谈线性回归时讲到的特征缩放 我们看到了特征缩放是如何提高梯度下降的收敛速度的这个特征缩放的方法也适用于逻辑回归如果你的特征范围差距很大的话那么应用特征缩放的方法同样也可以让逻辑回归中梯度下降收敛更快就是这样现在你知道如何实现逻辑回归这是一种非常强大甚至可能世界上使用最广泛的一种分类算法 而现在你已经知道如何去实现它了

Advanced Optimization高级优化算法

总结：

有哪些高级优化算法？ gradient descent、conjugate gradient、BFGS、L-BFGS。
这些算法作用于哪个阶段？这些算法需要 J(θ) 和导数项，然后用更复杂的算法来最小化代价函数。

在上节课的视频中用梯度下降的方法最小化逻辑回归中代价函数 J(θ) 在这段视频中教你们一些 高级优化算法和一些 高级的优化概念 利用这些方法我们就能够使通过梯度下降进行逻辑回归的速度 大大提高而这也将使算法更加适合解决大型的机器学习问题比如我们有数目庞大的特征量

现在我们换个角度来看什么是梯度下降 （目的）我们有个代价函数 J 而我们想要使其最小化 那么我们需要做的是（实现）我们需要编写代码当输入参数 θ 时它们会计算出两样东西 J(θ) 以及 J等于 0 1直到 n 时的 偏导数项 假设我们已经完成了可以实现这两件事的代码那么梯度下降所做的就是反复执行这些更新生成了这个叫做 data 的对象是吧？

所以给出我们用于计算这些的偏导数的代码 梯度下降法就把它插入到这里从而来更新参数 θ 因此另一种考虑梯度下降的思路是我们需要写出代码来计算 J(θ) 这些偏导数然后把这些插入到梯度下降中然后它就可以为我们最小化这个函数对于梯度下降来说我认为从技术上讲你实际并不需要编写代码来计算代价函数 J(θ) 你只需要编写代码来计算导数项但是如果你希望代码还要能够监控这些 J(θ) 的收敛性那么我们就需要自己编写代码来计算代价函数和偏导数项所以在写完能够计算这两者的代码之后我们就可以使用梯度下降

但梯度下降并不是我们可以使用的唯一算法还有其他一些算法 更高级更复杂如果我们能用这些方法来计算这两个项的话那么这些算法就是为我们优化代价函数的不同方法 conjugate gradient、共轭梯度法 BFGS (变尺度法) 和 L-BFGS (限制变尺度法) 就是其中一些更高级的优化算法它们需要有一种方法来计算 J(θ) 以及需要一种方法 计算导数项 然后使用比梯度下降更复杂的算法来最小化代价函数这三种算法的具体细节超出了本门课程的范畴实际上你最后通常会花费很多天或几周时间研究这些算法你可以专门学一门课来提高数值计算能力

不过让我来告诉你他们的一些特性这三种算法有许多优点一个是使用这其中任何一个算法你通常 不需要手动选择学习率 α 所以对于这些算法的一种思路是给出计算导数项和代价函数的方法你可以认为算法有一个智能的内部循环 而且事实上他们确实有一个智能的内部循环称为线性搜索(line search)算法 它可以自动尝试不同的学习速率 α 并自动选择一个好的学习速率 α 因此它甚至可以为每次迭代选择不同的学习速率那么你就不需要自己选择这些算法实际上在做更复杂的事情而不仅仅是选择一个好的学习速率所以它们往往最终收敛得远远快于梯度下降这些算法实际上在做更复杂的事情不仅仅是选择一个好的学习速率所以它们往往最终比梯度下降收敛得快多了不过关于它们到底做什么的详细讨论已经超过了本门课程的范围

实际上我过去使用这些算法已经很长一段时间了也许超过十年了使用得相当频繁而直到几年前我才真正搞清楚 共轭梯度法 BFGS 和 L-BFGS的细节因此实际上完全有可能成功使用这些算法并应用于许多不同的学习问题而不需要真正理解这些算法的内环间在做什么如果说这些算法有缺点的话那么我想说主要缺点是它们比梯度下降法复杂多了 特别是你最好不要使用 L-BGFS BFGS这些算法共轭梯度 L-BGFS BFGS 除非你是数值计算方面的专家

实际上我不会建议你们编写自己的代码来计算数据的平方根或者计算逆矩阵因为对于这些算法我还是会建议你直接使用一个软件库 所以要求一个平方根我们所能做的就是调用一些别人已经写好用来计算数字平方根的函数幸运的是有 Octave 和与它密切相关的 MATLAB 语言我们将会用到它们 Octave 有一个非常理想的库用于实现这些先进的优化算法所以如果你直接调用它自带的库你就能得到不错的结果我必须指出这些算法实现得好或不好是有区别的因此如果你正在你的机器学习程序中使用一种不同的语言比如如果你正在使用 C C + + Java 等等你可能会想尝试一些不同的库以确保你找到一个能很好实现这些算法的库因为在 L-BFGS 或者等高线梯度的实现上表现得好与不太好是有差别的

因此现在让我们来说明 如何使用这些算法

我打算举一个例子比方说你有一个 含两个参数的问题这两个参数是 θ0 和 θ1 那么你的成本函数 J(θ)等于 θ1 减去5的平方再加上 θ2 减5的平方因此通过这个代价函数你可以得到 θ1 和 θ2 的值如果你将 J(θ) 最小化的话那么它的最小值将是 θ1 等于5 θ2 等于5 我知道你们当中有些人比别人微积分更好但是你应该知道代价函数 J 的导数推出来就是这两个表达式我已经写在这儿了那么你就可以应用高级优化算法里的一个来最小化代价函数 J 所以如果我们不知道最小值是5 5 但你想要代价函数找到这个最小值是用比如梯度下降这些算法但最好是用比它更高级的算法你要做的就是运行一个像这样的 Octave 函数那么我们运行一个函数比如 costFunction 这个函数的作用就是它会返回两个值第一个是 jVal 它是我们计算的代价函数 J 所以说 jVal 等于 theta(1) 减5的平方加 theta(2) 减5的平方这样就计算出这个代价函数函数返回的第二个值是梯度值梯度值应该是一个2×1的向量梯度向量的两个元素对应这里的两个偏导数项运行这个 costFunction 函数后你就可以调用高级的优化函数这个函数叫 fminunc 它表示 Octave 里无约束最小化函数调用它的方式如下你要设置几个 options 这个 options 变量作为一个数据结构可以存储你想要的 options 所以 GradObj 和 On 这里设置梯度目标参数为打开(on) 这意味着你现在确实要给这个算法提供一个梯度然后设置最大迭代次数比方说 100 我们给出一个 θ 的猜测初始值它是一个2×1的向量那么这个命令就调用 fminunc 这个@符号表示指向我们刚刚定义的 costFunction 函数的指针如果你调用它它就会使用众多高级优化算法中的一个当然你也可以把它当成梯度下降只不过它能自动选择学习速率α 你不需要自己来做然后它会尝试使用这些高级的优化算法就像加强版的梯度下降法为你找到最佳的 θ 值让我告诉你它在 Octave 里什么样所以我写了这个关于theta的的 costFunction 函数跟前面幻灯片中一样它计算出代价函数 jval 以及梯度 gradient gradient 有两个元素是代价函数对于 theta(1) 和 theta(2) 这两个参数的偏导数

一个具体的例子，使用Octave在命令行实现

现在让我们切换到Octave窗口 我把刚刚的命令敲进去 options = optimset 这是在我的优化算法的 options上设置参数的记号这样就是100 次迭代我现在要给我的算法提供梯度值设置 theta 的初始值是一个2×1的零向量这是我猜测的 theta 初始值现在我就可以写出三个返回值等于指向代价函数的指针 @costFunction 我猜测的初始值 initialTheta 还有options 如果我敲回车这个就会运行优化算法它很快返回值这个格式很有意思因为我的代码是被缠住了所以这个有点意思完全是因为我的命令行被绕住了不过这里只是数字上的一些问题把它看成是加强版梯度下降它们找到 theta 的最优值是 theta(1) 为5 theta(2) 也为5 这正是我们希望的 functionVal 的值实际上是10的-30次幂所以这基本上就是0 这也是我们所希望的 exitFlag为1 这说明它的状态是已经收敛了的你也可以运行 help fminunc 命令去查阅相关资料以理解 exitFlag 的作用 exitFlag可以让你确定该算法是否已经收敛这就是在 Octave 里运行这些算法的过程哦对了这里我得指出用 Octave 运行的时候向量θ的值 θ的参数向量必须是 d 维的 d 大于等于2 所以 θ 仅仅是一个实数因此如果它不是一个至少二维的向量或高于二维的向量 fminunc 就可能无法运算因此如果你有一个一维的函数需要优化一维的函数需要优化你可以查找 Octave 里 fminuc 函数的资料来得到更多的细节来得到更多的细节这就是我们如何优化一个例子的过程这是一个简单的二次代价函数

我们如果把它应用到逻辑回归中呢在逻辑回归中我们有一个参数向量 theta 我要混合使用 Octave 记号和数学符号我希望这个写法很明确我们的参数 theta 由 θ0 到 θn 组成由 θ0 到 θn 组成因为在 Octave 的标号中向量的标号是从1开始的在 Octave 里 θ0实际上写成 theta(1) 因此用 theta(1) 表示第一个参数 θ0 然后有 theta(2) 接下来写到 theta(n+1) 对吧这是因为 Octave 的记号是向量从1开始的而不是从0开始因此我们需要做的是写一个 costFunction 函数 它为逻辑回归求得代价函数具体点说 costFunction 函数需要返回 jVal 值因此需要一些代码来计算 J(θ) 我们也需要给出梯度值 gradient 那么 gradient(1) 对应用来计算代价函数关于 θ0 的偏导数接下去关于 θ1 的偏导数依此类推再次强调这是 gradient(1) gradient(2) 等等而不是gradient(0) gradient(1) 因为 Octave 的标号是从1开始而不是从0开始的我希望你们从这个幻灯片中学到的主要内容是你所要做的是写一个函数它能返回代价函数值以及梯度值因此要把这个应用到逻辑回归或者甚至线性回归中你也可以把这些优化算法用于线性回归你需要做的就是输入合适的代码来计算这里的这些东西 现在你已经知道如何使用这些高级的优化算法 有了这些算法你就可以使用一个复杂的优化库 它让算法使用起来更模糊一点 more opaque and so 因此也许稍微有点难调试不过由于这些算法的运行速度通常远远超过梯度下降

因此当我有一个很大的机器学习问题时我会选择这些高级算法 而不是梯度下降 有了这些概念你就应该能将逻辑回归 和线性回归应用于更大的问题中这就是高级优化的概念

在下一个视频也就是逻辑回归这一部分的最后一个视频中我想要告诉你如何修改你已经知道的逻辑回归算法 然后使它在多类别分类问题中也能正常运行

Multiclass Classification多类别分类

Multiclass Classification: One-vs-all多类别分类：一对多

在本节视频中我们将谈到如何使用逻辑回归 (logistic regression) 来解决多类别分类问题 具体来说我想通过一个叫做"一对多" (one-vs-all) 的分类算法让你了解什么是多类别分类问题

先看这样一些例子假如说你现在需要一个学习算法 能自动地将邮件归类到不同的文件夹里或者说可以自动地加上标签那么你也许需要一些不同的文件夹或者不同的标签来完成这件事来区分开来自工作的邮件、来自朋友的邮件来自家人的邮件或者是有关兴趣爱好的邮件那么我们就有了这样一个分类问题其类别有四个分别用y=1、y=2、y=3、 y=4 来代表另一个例子是有关药物诊断的如果一个病人因为鼻塞来到你的诊所他可能并没有生病用 y=1 这个类别来代表或者患了感冒用 y=2 来代表或者得了流感 y=3 第三个例子也是最后一个例子如果你正在做有关天气的机器学习分类问题那么你可能想要区分哪些天是晴天、多云、雨天、或者下雪天

对上述所有的例子 y 可以取一个很小的数值一个相对"谨慎"的数值比如1到3、1到4或者其它数值以上说的都是多类分类问题 顺便一提的是对于下标是 0 1 2 3 还是 1 2 3 4 都不重要我更喜欢将分类从 1 开始标而不是 0 其实怎样标注都不会影响最后的结果然而对于之前的一个二元分类问题我们的数据看起来可能是像这样对于一个多类分类问题我们的数据集或许看起来像这样我用三种不同的符号来代表三个类别问题就是给出三个类型的数据集 这是一个类别中的样本而这个样本是属于另一个类别而这个样本属于第三个类别

我们如何得到一个学习算法来进行分类呢？我们现在已经知道如何进行二元分类可以使用逻辑斯特回归对于直线或许你也知道可以将数据集一分为二为正类和负类用一对多的分类思想 我们可以将其用在多类分类问题上下面将介绍如何进行一对多的分类工作有时这个方法也被称为"一对余"方法

现在我们有一个训练集 好比左边表示的有三个类别我们用三角形表示 y=1 方框表示 y=2 叉叉表示 y=3 我们下面要做的就是使用一个训练集将其分成三个二元分类问题 所以我将它分成三个二元分类问题我们先从用三角形代表的类别1开始实际上我们可以创建一个新的"伪"训练集类型2和类型3 定为负类类型1 设定为正类我们创建一个新的训练集如右侧所示的那样我们要拟合出一个合适的分类器我们称其为 h 下标 θ 上标(1) (x) 这里的三角形是正样本 而圆形代表负样本 可以这样想设置三角形的值为1 圆形的值为0

下面我们来训练一个标准的逻辑回归分类器 这样我们就得到一个正边界 对吧? 这里上标(1)表示类别1 我们可以像这样对三角形类别这么做下面我们将为类别2做同样的工作取这些方块样本然后将这些方块作为正样本设其它的为三角形和叉形类别为负样本这样我们找到第二个合适的逻辑回归分类器我们称为 h 下标 θ 上标(2) (x) 其中上标(2)表示是类别2 所以我们做的就是把方块类当做正样本我们可能便会得到这样的一个分类器最后同样地我们对第三个类别采用同样的方法并找出第三个分类器 h 下标 θ 上标(3) (x) 或许这么做可以给出一个像这样的判别边界或者说分类器能这样分开正负样本总而言之我们已经拟合出三个分类器对于 i 等于1、2、3 我们都找到了一个分类器 h 上标(i) 下标θ 括号 x 通过这样来尝试估计出给出 x 和先验 θ 时 y的值等于 i 的概率对么？在一开始对于第一个在这里的分类器完成了对三角形的识别把三角形当做是正类别所以 h(1) 实际上是在计算给定x 以 θ 为参数时 y的值为1的概率是多少概率是多少同样地这个也是这么处理矩形类型当做一个正类别同样地可以计算出 y=2 的概率和其它的概率值来现在我们便有了三个分类器 且每个分类器都作为其中一种情况进行训练

总之我们已经把要做的做完了现在要做的就是训练这个 逻辑回归分类器 h(i) 逻辑回归分类器 h(i) 其中 i 对应每一个可能的 y=i 最后为了做出预测我们给出输入一个新的 x 值用这个做预测我们要做的就是在我们三个分类器里面输入 x 然后我们选择一个让 h 最大的 i 你现在知道了 基本的挑选分类器的方法 选择出哪一个分类器是可信度最高效果最好的那么就可认为得到一个正确的分类无论i值是多少我们都有最高的概率值我们预测 y 就是那个值
这就是多类别分类问题 以及一对多的方法通过这个小方法你现在也可以将逻辑回归分类器用在多类分类的问题上

Regularization正则化-防止过度拟合

Solving the Problem of Overfitting解决过度拟合问题

The Problem of Overfitting过度拟合问题

Machine learning models need to generalize well to new examples that the model has not seen in practice. In this module, we introduce regularization, which helps prevent models from overfitting the training data.

到现在为止你已经见识了几种不同的学习算法 包括线性回归和逻辑回归 它们能够有效地解决许多问题但是当将它们应用到某些特定的机器学习应用时会遇到过度拟合(over-fitting)的问题可能会导致它们效果很差在这段视频中我将为你解释什么是过度拟合问题 并且在此之后接下来的几个视频中我们将谈论一种称为正则化(regularization)的技术它可以改善或者减少过度拟合问题以使学习算法更好实现

那么什么是过度拟合呢？让我们继续使用那个用线性回归 来预测房价的例子我们通过建立以住房面积为自变量的函数来预测房价我们可以对该数据做线性回归如果这么做我们也许能够获得拟合数据的这样一条直线但是这不是一个很好的模型我们看看这些数据很明显随着房子面积增大住房价格的变化趋于稳定或者越往右越平缓因此该算法没有很好拟合训练数据我们把这个问题称为欠拟合(underfitting) 这个问题的另一个术语叫做 高偏差(bias) 这两种说法大致相似意思是它只是没有很好地拟合训练数据这个词是过去传下来的一个专业名词它的意思是如果拟合一条直线到训练数据就好像算法有一个很强的偏见或者说非常大的偏差因为该算法认为房子价格与面积仅仅线性相关尽管与该数据的事实相反尽管相反的证据被事前定义为偏差它还是接近于拟合一条直线而此法最终导致拟合数据效果很差我们现在可以在中间加入一个二次项 在这组数据中我们用二次函数来拟合它然后可以拟合出一条曲线事实证明这个拟合效果很好另一个极端情况是如果我们拟合一个四次多项式 因此在这里我们有五个参数 θ0到θ4 这样我们可以拟合一条曲线通过我们的五个训练样本你可以得到看上去如此的一条曲线一方面似乎对训练数据做了一个很好的拟合因为这条曲线通过了所有的训练实例但是这仍然是一条扭曲的曲线对吧？它不停上下波动因此事实上我们并不认为它是一个预测房价的好模型所以这个问题我们把他叫做 过度拟合或过拟合(overfitting) 另一个描述该问题的术语是 高方差(variance) 高方差是另一个历史上的叫法但是从第一印象上来说如果我们拟合一个高阶多项式那么这个函数能很好的拟合训练集能拟合几乎所有的训练数据这就面临可能函数太过庞大的问题变量太多同时如果我们没有足够的数据去约束这个变量过多的模型那么这就是过度拟合在两者之间的情况叫"刚好合适" 这并不是一个真正的名词我只是把它写在这里这个二次多项式二次函数可以说是恰好拟合这些数据

概括地说 过度拟合的问题 将会在变量过多的时候发生这种时候训练出的方程总能很好的拟合训练数据 所以你的代价函数实际上可能非常接近于0 或者就是0 但是这样的曲线它千方百计的拟合于训练数据这样导致它无法泛化到新的数据样本中 以至于无法预测新样本价格 在这里术语"泛化" 指的是一个假设模型能够应用到新样本的能力 新样本数据是没有出现在训练集中的房子

在这张幻灯片上我们看到了 线性回归情况下的过拟合 类似的方法同样可以应用到逻辑回归 这里是一个以x1与x2为变量的逻辑回归我们可以做的就是用这样一个简单的假设模型来拟合逻辑回归和以前一样字母g代表S型函数如果这样做你会得到一个假设模型这个假设模型是一条直线它直接分开了正样本和负样本但这个模型并不能够很好的拟合数据因此这又是一个欠拟合的例子或者说假设模型具有高偏差相比之下如果如果再加入一些变量比如这些二次项那么你可以得到一个判定边界像这样这样就很好的拟合了数据这很可能是训练集的最好拟合结果最后在另一种极端情况下如果你用高阶多项式来拟合数据你加入了很多高阶项那么逻辑回归可能发生自身扭曲它千方百计的形成这样一个判定边界来拟合你的训练数据以至于成为一条扭曲的曲线使其能够拟合每一个训练集中的样本而且如果x1和x2 能够预测癌症你知道癌症是一种恶性肿瘤同时肿瘤也可能是良性确实这个假设模型不是一个很好的预测因此这又是一个过拟合例子是一个有高方差的假设模型并且不能够很好泛化到新样本

在今后课程中我们会讲到调试和诊断 诊断出导致学习算法故障的东西我们告诉你如何用专门的工具来识别 过拟合 和可能发生的欠拟合 但是现在让我们谈谈过拟合的问题 我们怎么样解决呢 在前面的例子中当我们使用一维或二维数据时我们可以通过绘出假设模型的图像来研究问题所在再选择合适的多项式来拟合数据因此以之前的房屋价格为例我们可以绘制假设模型的图像就能看到模型的曲线非常扭曲并通过所有样本房价我们可以通过绘制这样的图形来选择合适的多项式阶次因此绘制假设模型曲线可以作为决定多项式阶次的一种方法但是这并不是总是有用的而且事实上更多的时候我们会遇到有很多变量的假设模型并且这不仅仅是选择多项式阶次的问题事实上当我们有这么多的特征变量这也使得绘图变得更难并且更难使其可视化 因此并不能通过这种方法决定保留哪些特征变量具体地说如果我们试图预测房价同时又拥有这么多特征变量这些变量看上去都很有用但是如果我们有过多的变量 同时只有非常少的训练数据 就会出现过度拟合的问题为了解决过度拟合有两个办法来解决问题

第一个办法是要尽量减少选取变量的数量 具体而言我们可以人工检查变量的条目并以此决定哪些变量更为重要然后决定保留哪些特征变量 哪些应该舍弃在今后的课程中我们会提到模型选择算法这种算法是为了自动选择采用哪些特征变量自动舍弃不需要的变量这种减少特征变量的做法是非常有效的并且可以减少过拟合的发生当我们今后讲到模型选择时我们将深入探讨这个问题但是其缺点是舍弃一部分特征变量你也舍弃了问题中的一些信息例如也许所有的特征变量对于预测房价都是有用的我们实际上并不想舍弃一些信息或者舍弃这些特征变量

第二个选择我们将在接下来的视频中讨论就是正则化 正则化中我们将保留所有的特征变量但是数量级或参数数值的大小 θ(j) 这个方法非常有效当我们有很多特征变量时其中每一个变量都能对预测产生一点影响 y的值正如我们在房价的例子中看到的那样在那里我们可以有很多特征变量其中每一个变量都是有用的因此我们不希望把它们删掉这就导致了正则化概念的发生我知道这些东西你们现在可能还听不懂

但是在接下来的视频中我们将开始详细讲述 怎样应用正则化和什么叫做正则化均值 然后我们将开始讲解怎样使用正则化怎样使学习算法正常工作并避免过拟合

Cost Function代价函数

在这段视频中传达给你一个直观的感受 告诉你正规化是如何进行的而且我们还要写出我们使用正规化时需要使用的代价函数根据我们幻灯片上的这些例子我想我可以给你一个直观的感受 但是一个更好的让你自己去理解正规化如何工作的方法是你自己亲自去实现它并且看看它是如何工作的如果在这节课后你进行一些适当的练习你就有机会亲自体验一下 正规化到底是怎么工作的

那么这里就是一些直观解释在前面的视频中我们看到了如果说我们要用一个二次函数来拟合这些数据它给了我们一个对数据很好的拟合然而如果我们用一个更高次的多项式去拟合我们最终可能得到一个曲线能非常好地拟合训练集但是这真的不是一个好的结果它过度拟合了数据因此一般性并不是很好让我们考虑下面的假设我们想要加上惩罚项 从而使参数 θ3 和 θ4 足够的小这里我的意思就是这是我们的优化目标或者客观的说这就是我们需要优化的问题我们需要尽量减少代价函数的均方误差对于这个函数我们对它进行一些添加一些项加上 1000 乘以 θ3 的平方再加上 1000 乘以 θ4 的平方 1000 只是我随便写的某个较大的数字而已现在如果我们要最小化这个函数为了使这个新的代价函数最小化我们要让 θ3 和 θ4 尽可能小对吧？因为如果你有 1000 乘以 θ3 这个新的代价函数将会是很大的所以当我们最小化这个新的函数时我们将使 θ3 的值接近于0 θ4 的值也接近于0 就像我们忽略了这两个值一样如果我们做到这一点如果 θ3 和 θ4 接近0 那么我们将得到一个近似的二次函数所以我们最终恰当地拟合了数据你知道二次函数加上一些项这些很小的项贡献很小因为 θ3 θ4 它们是非常接近于0的所以我们最终得到了实际上很好的一个二次函数因为这是一个更好的假设在这个具体的例子中我们看到了惩罚这两个大的参数值的效果更一般地这里给出了正规化背后的思路

这种思路就是如果我们的参数值对应一个较小值的话就是说参数值比较小那么往往我们会得到一个形式更简单的假设所以我们最后一个例子中我们惩罚的只是 θ3 和 θ4 使这两个值均接近于零我们得到了一个更简单的假设也即这个假设大抵上是一个二次函数但更一般地说如果我们就像这样惩罚的其它参数通常我们可以把它们都想成是得到一个更简单的假设因为你知道当这些参数越接近这个例子时假设的结果越接近一个二次函数但更一般地可以表明这些参数的值越小通常对应于越光滑的函数也就是更加简单的函数因此就不易发生过拟合的问题我知道为什么要所有的部分参数变小的这些原因为什么越小的参数对应于一个简单的假设我知道这些原因对你来说现在不一定完全理解但现在解释起来确实比较困难除非你自己实现一下自己亲自运行了这部分但是我希望这个例子中使 θ3 和 θ4 很小并且这样做能给我们一个更加简单的假设我希望这个例子有助于解释原因至少给了我们一些直观感受为什么这应该是这样的来让我们看看具体的例子对于房屋价格预测我们可能有上百种特征我们谈到了一些可能的特征比如说 x1 是房屋的尺寸 x2 是卧室的数目 x3 是房屋的层数等等那么我们可能就有一百个特征跟前面的多项式例子不同我们是不知道的对吧我们不知道 θ3 θ4 是高阶多项式的项所以如果我们有一个袋子如果我们有一百个特征在这个袋子里我们是很难提前选出那些关联度更小的特征的也就是说如果我们有一百或一百零一个参数我们不知道挑选哪一个我们并不知道如何选择参数如何缩小参数的数目因此在正规化里我们要做的事情就是把我们的代价函数这里就是线性回归的代价函数接下来我度量来修改这个代价函数从而缩小我所有的参数值因为你知道我不知道是哪个哪一个或两个要去缩小所以我就修改我的代价函数在这后面添加一项就像我们在方括号里的这项当我添加一个额外的正则化项的时候我们收缩了每个参数并且因此我们会使我们所有的参数 θ1 θ2 θ3 直到 θ100 的值变小
顺便说一下按照惯例来讲我们从第一个这里开始所以我实际上没有去惩罚 θ0 因此 θ0 的值是大的这就是一个约定从1到 n 的求和而不是从0到 n 的求和但其实在实践中这只会有非常小的差异无论你是否包括这项就是 θ0 这项实际上结果只有非常小的差异但是按照惯例通常情况下我们还是只从 θ1 到 θ100 进行正规化这里我们写下来我们的正规化优化目标我们的正规化后的代价函数就是这样的 J(θ) 这个项右边的这项就是一个正则化项并且 λ 在这里我们称做正规化参数 λ 要做的就是控制在两个不同的目标中的一个平衡关系第一个目标第一个需要抓住的目标就是我们想要训练使假设更好地拟合训练数据我们希望假设能够很好的适应训练集而第二个目标是我们想要保持参数值较小这就是第二项的目标通过正则化目标函数这就是λ 这个正则化参数需要控制的它会这两者之间的平衡目标就是平衡拟合训练的目的和保持参数值较小的目的从而来保持假设的形式相对简单来避免过度的拟合对于我们的房屋价格预测来说这个例子尽管我们之前有我们已经用非常高的高阶多项式来拟合我们将会得到一个非常弯曲和复杂的曲线函数就像这个如果你还是用高阶多项式拟合就是用这里所有的多项式特征来拟合的话但现在我们不这样了你只需要确保使用了正规化目标的方法那么你就可以得到实际上是一个曲线但这个曲线不是一个真正的二次函数而是更加的流畅和简单也许就像这条紫红色的曲线一样那么你知道的这样就得到了对于这个数据更好的假设再一次说明下我了解这部分有点难以明白为什么加上参数的影响可以具有这种效果但如果你亲自实现了正规化你将能够看到这种影响的最直观的感受
在正规化线性回归中如果正规化参数值被设定为非常大那么将会发生什么呢？我们将会非常大地惩罚参数θ1 θ2 θ3 θ4 也就是说如果我们的假设是底下的这个如果我们最终惩罚 θ1 θ2 θ3 θ4 在一个非常大的程度那么我们会使所有这些参数接近于零的对不对？ θ1 将接近零 θ2 将接近零 θ3 和 θ4 最终也会接近于零如果我们这么做那么就是我们的假设中相当于去掉了这些项并且使我们只是留下了一个简单的假设这个假设只能表明那就是房屋价格就等于 θ0 的值那就是类似于拟合了一条水平直线对于数据来说这就是一个欠拟合 (underfitting) 这种情况下这一假设它是条失败的直线对于训练集来说这只是一条平滑直线它没有任何趋势它不会去趋向大部分训练样本的任何值这句话的另一种方式来表达就是这种假设有过于强烈的"偏见" 或者过高的偏差 (bais) 认为预测的价格只是等于 θ0 并且尽管我们的数据集选择去拟合一条扁平的直线仅仅是一条扁平的水平线我画得不好对于数据来说这只是一条水平线因此为了使正则化运作良好我们应当注意一些方面应该去选择一个不错的正则化参数 λ 并且当我们以后讲到多重选择时在后面的课程中我们将讨论一种方法一系列的方法来自动选择正则化参数 λ 所以这就是高度正则化的思路回顾一下代价函数为了使用正则化在接下来的两段视频中让我们把这些概念应用到到线性回归和逻辑回归中去那么我们就可以让他们避免过度拟合了

Regularized Linear Regression线性回归正则化

对于线性回归的求解我们之前推导了两种学习算法一种基于梯度下降 一种基于正规方程 在这段视频中我们将继续学习这两个算法并把它们推广到正则化线性回归中去

这是我们上节课推导出的正则化线性回归的优化目标前面的第一部分是一般线性回归的目标函数而现在我们有这个额外的正则化项其中 λ 是正则化参数我们想找到参数 θ 能最小化代价函数即这个正则化代价函数 J(θ) 之前我们使用梯度下降求解原来没有正则项的代价函数我们用下面的算法求解常规的没有正则项的线性回归我们会如此反复更新参数 θj 其中 j=0, 1, 2...n 让我照这个把 j=0 即 θ0 的情况单独写出来我只是把 θ0 的更新分离出来剩下的这些参数θ1, θ2 到θn的更新作为另一部分所以这样做其实没有什么变化对吧？这只是把 θ0 的更新这只是把 θ0 的更新和 θ1 θ2 到 θn 的更新分离开来和 θ1 θ2 到 θn 的更新分离开来我这样做的原因是你可能还记得对于正则化的线性回归我们惩罚参数θ1 θ2...一直到 θn 但是我们不惩罚θ0 所以当我们修改这个正则化线性回归的算法时我们将对 θ0 的方式将有所不同具体地说如果我们要对这个算法进行修改并用它求解正则化的目标函数我们需要做的是把下边的这一项做如下的修改我们要在这一项上添加除以 m 再乘以 θj 如果这样做的话那么你就有了用于最小化正则化代价函数 J(θ) 的梯度下降算法我不打算用微积分来证明这一点但如果你看这一项方括号里的这一项如果你知道微积分应该不难证明它是 J(θ) 对 θj 的偏导数这里的 J(θ) 是用的新定义的形式它的定义中包含正则化项而另一项上面的这一项我用青色的方框圈出来的这一项这也一个是偏导数是 J(θ)对 θ0 的偏导数如果你仔细看 θj 的更新你会发现一些有趣的东西具体来说 θj 的每次更新都是 θj 自己减去 α 乘以原来的无正则项然后还有这另外的一项这一项的大小也取决于 θj 所以如果你把所有这些取决于 θj 的合在一起的话可以证明这个更新可以等价地写为如下的形式具体来讲上面的 θj 对应下面的 θj 乘以括号里的1 而这一项是 λ 除以 m 还有一个α 把它们合在一起所以你最终得到 α 乘以 λ 再除以 m 然后合在一起乘以 θj 而这一项 1 减去 α 乘以 λ 除以 m 这一项很有意思具体来说这一项 1 减去 α 乘以 λ 除以 m 这一项的值通常是一个具体的实数而且小于1 对吧？由于 α 乘以 λ 除以 m 通常情况下是正的如果你的学习速率小而 m 很大的话 (1 - αλ/m) 这一项通常是很小的所以这里的一项一般来说将是一个比1小一点点的值所以我们可以把它想成一个像0.99一样的数字所以对 θj 更新的结果我们可以看作是被替换为 θj 的0.99倍也就是 θj 乘以0.99 把 θj 向 0 压缩了一点点所以这使得 θj 小了一点更正式地说 θj 的平方范数更小了另外这一项后边的第二项这实际上与我们原来的梯度下降更新完全一样跟我们加入了正则项之前一样好的现在你应该对这个梯度下降的更新没有疑问了当我们使用正则化线性回归时我们需要做的就是在每一个被正规化的参数 θj 上乘以了一个比1小一点点的数字也就是把参数压缩了一点然后我们执行跟以前一样的更新当然这仅仅是从直观上认识这个更新在做什么从数学上讲它就是带有正则化项的 J(θ) 的梯度下降算法我们在之前的幻灯片给出了定义梯度下降只是我们拟合线性回归模型的两种算法的其中一个第二种算法是使用正规方程我们的做法是建立这个设计矩阵 X 其中每一行对应于一个单独的训练样本然后创建了一个向量 y 向量 y 是一个 m 维的向量 m 维的向量包含了所有训练集里的标签所以 X 是一个 m × (n+1) 维矩阵 y 是一个 m 维向量 y 是一个 m 维向量为了最小化代价函数 J 我们发现一个办法就是一个办法就是让 θ 等于这个式子即 X 的转置乘以 X 再对结果取逆再乘以 X 的转置乘以Y 我在这里留点空间等下再填满这个 θ 的值其实就是最小化代价函数 J(θ) 的θ值这时的代价函数J(θ)没有正则项现在如果我们用了是正则化我们想要得到最小值我们想要得到最小值我们来看看应该怎么得到我们来看看应该怎么得到推导的方法是取 J 关于各个参数的偏导数并令它们等于0 然后做些数学推导你可以得到这样的一个式子它使得代价函数最小具体的说如果你使用正则化那么公式要做如下改变括号里结尾添这样一个矩阵 0 1 1 1 等等直到最后一行所以这个东西在这里是一个矩阵它的左上角的元素是0 其余对角线元素都是1 剩下的元素也都是 0 我画的比较随意可以举一个例子如果 n 等于2 那么这个矩阵将是一个3 × 3 矩阵更一般地情况该矩阵是一个 (n+1) × (n+1) 维的矩阵一个 (n+1) × (n+1) 维的矩阵因此 n 等于2时矩阵看起来会像这样左上角是0 然后其他对角线上是1 其余部分都是0 同样地我不打算对这些作数学推导坦白说这有点费时耗力但可以证明如果你采用新定义的 J(θ) 如果你采用新定义的 J(θ) 包含正则项的目标函数那么这个计算 θ 的式子能使你的 J(θ) 达到全局最小值所以最后我想快速地谈一下不可逆性的问题这部分是比较高阶的内容所以这一部分还是作为选学你可以跳过去或者你也可以听听如果听不懂的话也没有关系之前当我讲正规方程的时候我们也有一段选学视频讲不可逆的问题所以这是另一个选学内容可以作为上次视频的补充可以作为上次视频的补充现在考虑 m 即样本总数小与或等于特征数量 n 如果你的样本数量比特征数量小的话那么这个矩阵 X 转置乘以 X 将是不可逆或奇异的(singluar) 或者用另一种说法是这个矩阵是退化(degenerate)的如果你在 Octave 里运行它无论如何你用函数 pinv 取伪逆矩阵这样计算理论上方法是正确的但实际上你不会得到一个很好的假设尽管 Ocatve 会用 pinv 函数给你一个数值解看起来还不错但是如果你是在一个不同的编程语言中如果在 Octave 中你用 inv 来取常规逆你用 inv 来取常规逆也就是我们要对 X 转置乘以 X 取常规逆然后在这样的情况下你会发现 X 转置乘以 X 是奇异的是不可逆的即使你在不同的编程语言里计算并使用一些线性代数库试图计算这个矩阵的逆矩阵都是不可行的因为这个矩阵是不可逆的或奇异的幸运的是正规化也为我们解决了这个问题具体地说只要正则参数是严格大于0的实际上可以证明该矩阵 X 转置乘以 X 加上 λ 乘以这里这个矩阵可以证明这个矩阵将不是奇异的即该矩阵将是可逆的因此使用正则化还可以照顾一些 X 转置乘以 X 不可逆的问题照顾一些 X 转置乘以 X 不可逆的问题好的你现在知道了如何实现正则化线性回归利用它你就可以避免过度拟合即使你在一个相对较小的训练集里有很多特征这应该可以让你在很多问题上更好地运用线性回归在接下来的视频中我们将把这种正则化的想法应用到逻辑回归这样你就可以让逻辑回归也避免过度拟合并让它表现的更好

Regularized Logistic Regression逻辑回归正则化

For logistic regression, we previously talked about two types of optimization algorithms. We talked about how to use gradient descent to optimize as cost function J of theta. And we also talked about advanced optimization methods. Ones that require that you provide a way to compute your cost function J of theta and that you provide a way to compute the derivatives. In this video, we'll show how you can adapt both of those techniques, both gradient descent and the more advanced optimization techniques in order to have them work for regularized logistic regression. So, here's the idea. We saw earlier that Logistic Regression can also be prone to overfitting if you fit it with a very, sort of, high order polynomial features like this. Where G is the sigmoid function and in particular you end up with a hypothesis, you know, whose decision bound to be just sort of an overly complex and extremely contortive function that really isn't such a great hypothesis for this training set, and more generally if you have logistic regression with a lot of features. Not necessarily polynomial ones, but just with a lot of features you can end up with overfitting. This was our cost function for logistic regression. And if we want to modify it to use regularization, all we need to do is add to it the following term plus londer over 2M, sum from J equals 1, and as usual sum from J equals 1. Rather than the sum from J equals 0, of theta J squared. And this has to effect therefore, of penalizing the parameters theta 1 theta 2 and so on up to theta N from being too large. And if you do this, then it will the have the effect that even though you're fitting a very high order polynomial with a lot of parameters. So long as you apply regularization and keep the parameters small you're more likely to get a decision boundary. You know, that maybe looks more like this. It looks more reasonable for separating the positive and the negative examples. So, when using regularization even when you have a lot of features, the regularization can help take care of the overfitting problem. How do we actually implement this? Well, for the original gradient descent algorithm, this was the update we had. We will repeatedly perform the following update to theta J. This slide looks a lot like the previous one for linear regression. But what I'm going to do is write the update for theta 0 separately. So, the first line is for update for theta 0 and a second line is now my update for theta 1 up to theta N. Because I'm going to treat theta 0 separately. And in order to modify this algorithm, to use a regularized cos function, all I need to do is pretty similar to what we did for linear regression is actually to just modify this second update rule as follows. And, once again, this, you know, cosmetically looks identical what we had for linear regression. But of course is not the same algorithm as we had, because now the hypothesis is defined using this. So this is not the same algorithm as regularized linear regression. Because the hypothesis is different. Even though this update that I wrote down. It actually looks cosmetically the same as what we had earlier. We're working out gradient descent for regularized linear regression. And of course, just to wrap up this discussion, this term here in the square brackets, so this term here, this term is, of course, the new partial derivative for respect of theta J of the new cost function J of theta. Where J of theta here is the cost function we defined on a previous slide that does use regularization. So, that's gradient descent for regularized linear regression. Let's talk about how to get regularized linear regression to work using the more advanced optimization methods. And just to remind you for those methods what we needed to do was to define the function that's called the cost function, that takes us input the parameter vector theta and once again in the equations we've been writing here we used 0 index vectors. So we had theta 0 up to theta N. But because Octave indexes the vectors starting from 1. Theta 0 is written in Octave as theta 1. Theta 1 is written in Octave as theta 2, and so on down to theta N plus 1. And what we needed to do was provide a function. Let's provide a function called cost function that we would then pass in to what we have, what we saw earlier. We will use the fminunc and then you know at cost function, and so on, right. But the F min, u and c was the F min unconstrained and this will work with fminunc was what will take the cost function and minimize it for us. So the two main things that the cost function needed to return were first J-val. And for that, we need to write code to compute the cost function J of theta. Now, when we're using regularized logistic regression, of course the cost function j of theta changes and, in particular, now a cost function needs to include this additional regularization term at the end as well. So, when you compute j of theta be sure to include that term at the end. And then, the other thing that this cost function thing needs to derive with a gradient. So gradient one needs to be set to the partial derivative of J of theta with respect to theta zero, gradient two needs to be set to that, and so on. Once again, the index is off by one. Right, because of the indexing from one Octave users. And looking at these terms. This term over here. We actually worked this out on a previous slide is actually equal to this. It doesn't change. Because the derivative for theta zero doesn't change. Compared to the version without regularization. And the other terms do change. And in particular the derivative respect to theta one. We worked this out on the previous slide as well. Is equal to, you know, the original term and then minus londer M times theta 1. Just so we make sure we pass this correctly. And we can add parentheses here. Right, so the summation doesn't extend. And similarly, you know, this other term here looks like this, with this additional term that we had on the previous slide, that corresponds to the gradient from their regularization objective. So if you implement this cost function and pass this into fminunc or to one of those advanced optimization techniques, that will minimize the new regularized cost function J of theta. And the parameters you get out will be the ones that correspond to logistic regression with regularization. So, now you know how to implement regularized logistic regression. When I walk around Silicon Valley, I live here in Silicon Valley, there are a lot of engineers that are frankly, making a ton of money for their companies using machine learning algorithms. And I know we've only been, you know, studying this stuff for a little while. But if you understand linear regression, the advanced optimization algorithms and regularization, by now, frankly, you probably know quite a lot more machine learning than many, certainly now, but you probably know quite a lot more machine learning right now than frankly, many of the Silicon Valley engineers out there having very successful careers. You know, making tons of money for the companies. Or building products using machine learning algorithms. So, congratulations. You've actually come a long ways. And you can actually, you actually know enough to apply this stuff and get to work for many problems. So congratulations for that. But of course, there's still a lot more that we want to teach you, and in the next set of videos after this, we'll start to talk about a very powerful cause of non-linear classifier. So whereas linear regression, logistic regression, you know, you can form polynomial terms, but it turns out that there are much more powerful nonlinear quantifiers that can then sort of polynomial regression. And in the next set of videos after this one, I'll start telling you about them. So that you have even more powerful learning algorithms than you have now to apply to different problems.

秒客网

Machine Learning - 第3周（Logistic Regression、Regularization）

Logistic Regression逻辑回归

Classification and Representation分类与表示

Classification分类问题

Hypothesis Representation假设函数表达式

Decision Boundary判定边界

Logistic Regression Model逻辑回归模型

Cost Function代价函数

Simplified Cost Function and Gradient Descent简化的代价函数和梯度下降模型

Advanced Optimization高级优化算法

Multiclass Classification多类别分类

Multiclass Classification: One-vs-all多类别分类：一对多

Regularization正则化-防止过度拟合

Solving the Problem of Overfitting解决过度拟合问题

The Problem of Overfitting过度拟合问题

Cost Function代价函数

Regularized Linear Regression线性回归正则化

Regularized Logistic Regression逻辑回归正则化

相关文章