coursera机器学习-支持向量机SVM

#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得；

#注:此笔记是我自己认为本节课里比较重要、难理解或容易忘记的内容并做了些补充，并非是课堂详细笔记和要点；

#标记为<补充>的是我自己加的内容而非课堂内容，参考文献列于文末。博主能力有限，若有错误，恳请指正；

#---------------------------------------------------------------------------------#

<补充>支持向量机方法的三要素(若不了解机器学习模型、策略、算法的具体意义，可参考机器学习三要素)

　　基本模型:间隔最大的线性分类器；若用上核技巧，成为实质上的非线性分类器；

　　学习策略:间隔最大化，可形式化为一个求解凸二次规划的问题；

　　学习算法:求解凸二次规划的最优化算法，如序列最小最优算法(SMO);

#---------------------------------------------------------------------------------#

由logistic regression引出SVM

logistic function(sigmoid function):g(z) = 1/(1 + e^-z)，z=Θ^Tx;

预测函数: coursera机器学习-支持向量机SVM ;

logistic函数的图形：

coursera机器学习-支持向量机SVM ;

当Θ^Tx 远大于0时，h_θ(x)接近于0；

logistic回归的cost function:

coursera机器学习-支持向量机SVM ；

当y=1时，上式变为-log(1 + e^-z),见图形

coursera机器学习-支持向量机SVM ;

SVM的cost function对logistic回归的cost function做了改变，当y=1时，SVM的cost function记为cost₁(θ^T x)，分为两部分(见下图紫线)，当z>1时cost₁(Θ^Tx)=0,当z<1时cost₁(Θ^Tx)是条直线。这样做有两个好处，一是计算更快(从计算logistic函数转变为计算直线函数)，二是更有利于后来的优化；

coursera机器学习-支持向量机SVM ；

同理对y=0时做同样的处理，得到cost₀(θ^T x)，下图紫线。

coursera机器学习-支持向量机SVM ；

由此我们得到cost₀(θ^T x)和cost₁(Θ^Tx)：

coursera机器学习-支持向量机SVM ；

由此我们从最小化logistic回归的cost function：

coursera机器学习-支持向量机SVM ，

得到下式：

coursera机器学习-支持向量机SVM ；

再令C=1/λ，去掉1/m(m是常数，不影响计算优化结果)，得到最终SVM的cost function：

coursera机器学习-支持向量机SVM ；

#---------------------------------------------------------------------------------#

Large margin intuition

再来看SVM的cost₀(θ^T x)和cost₁(Θ^Tx)：

coursera机器学习-支持向量机SVM ；

注意:SVM wants a bit more than that - doesn't want to *just* get it right, but have the value be quite a bit bigger than zero

Throws in an extra safety margin factor

对于训练数据，SVM不仅要求是分的对，而且还有额外的间隔条件来保证分的“好”；

coursera机器学习-支持向量机SVM ；

The green and magenta lines are functional decision boundaries which could be chosen by logistic regression
- But they probably don't generalize too well
The black line, by contrast is the the chosen by the SVM because of this safety net imposed by the optimization graphMathematically, that black line has a larger minimum distance (margin) from any of the training examples
- More robust separator

By separating with the largest margin，you incorporate robustness into your decision making process

<补充>什么是支持向量support vector？

　　下图中两个支撑着中间的 gap 的超平面，它们到中间的纯红线separating hyper plane 的距离相等，即我们所能得到的最大的 geometrical margin coursera机器学习-支持向量机SVM ，而“支撑”这两个超平面的必定会有一些点，而这些“支撑”的点便叫做支持向量Support Vector。　　　　　　

C的选择对SVM的影响

C选的合适时，

coursera机器学习-支持向量机SVM ；

C太大时造成过拟合(紫线)，

coursera机器学习-支持向量机SVM ；

<补充>最大间隔分离超平面存在唯一性：若训练数据线性可分(这是前提)，则可将训练数据的样本点完全正确分开的最大间隔分离超平面存在且唯一；

#---------------------------------------------------------------------------------#

Kernels

<补充>当训练数据线性可分或近似线性可分时，通过间隔最大化，学习一个线性分类器；当训练数据线性不可分时，使用核技巧(kernel trick)，学习非线性分类器；

　　　　　　 coursera机器学习-支持向量机SVM

<补充>核函数(kernel function)表示将输入从输入空间映射到特征空间得到的特征向量之间的内积。通过使用核函数可以学习非线性支持向量机，等价于隐式地在高维空间的特征空间中学习线性支持向量机；也就是说，在核函数K(x,z)给定的条件下，可以利用解线性分类问题的方法去求解非线性分类问题的支持向量机。学习是隐式的在特征空间进行的，不需要显式地定义特征空间和映射函数。这样的技巧称作核技巧；

coursera机器学习-支持向量机SVM

几个常用核函数

Gaussian kernel(使用最多的):Need to define σ (σ²)；

coursera机器学习-支持向量机SVM ;

linear kernel:no kernel；

others：Polynomial Kernel,String kernel,Chi-squared kernel...

#---------------------------------------------------------------------------------#

Logistic regression vs. SVM

If n (features) is large vs. m (training set)

e.g. text classification problem

Feature vector dimension is 10 000
Training set is 10 - 1000
Then use logistic regression or SVM with a linear kernel

If n is small and m is intermediate

n = 1 - 1000
m = 10 - 10 000
Gaussian kernel is good

If n is small and m is large

n = 1 - 1000
m = 50 000+
- - SVM will be slow to run with Gaussian kernel
In that case
- - Manually create or add more features
  - Use logistic regression of SVM with a linear kernel

Logistic regression and SVM with a linear kernel are pretty similar

Do similar things
Get similar performance

A lot of SVM's power is using diferent kernels to learn complex non-linear functions

For all these regimes a well designed NN should work

But, for some of these problems a NN might be slower - SVM well implemented would be faster

SVM has a convex optimization problem - so you get a global minimum

#---------------------------------------------------------------------------------#

参考文献

《统计学习方法》，李航著

理解SVM的三层境界-支持向量机通俗导论，July、pluskid著

standford machine learning, by Andrew Ng

coursera机器学习-支持向量机SVM的更多相关文章

机器学习——支持向量机SVM
前言学习本章节前需要先学习: <机器学习--最优化问题:拉格朗日乘子法.KKT条件以及对偶问题> <机器学习--感知机> 1 摘要: 支持向量机(SVM)是一种二类分类模型, ...
吴裕雄 python 机器学习——支持向量机SVM非线性分类SVC模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets, linear_model,svm fr ...
机器学习——支持向量机(SVM)之拉格朗日乘子法，KKT条件以及简化版SMO算法分析
SVM有很多实现,现在只关注其中最流行的一种实现,即序列最小优化(Sequential Minimal Optimization,SMO)算法,然后介绍如何使用一种核函数(kernel)的方式将SVM ...
机器学习-支持向量机SVM
简介: 支持向量机(SVM)是一种二分类的监督学习模型,他的基本模型是定义在特征空间上的间隔最大的线性模型.他与感知机的区别是,感知机只要找到可以将数据正确划分的超平面即可,而SVM需要找到间隔最大的 ...
机器学习——支持向量机(SVM)
支持向量机原理支持向量机要解决的问题其实就是寻求最优分类边界.且最大化支持向量间距,用直线或者平面,分隔分隔超平面. 基于核函数的升维变换通过名为核函数的特征变换,增加新的特征,使得低维度空间中的 ...
机器学习支持向量机SVM笔记
SVM简述: SVM是一个线性二类分类器,当然通过选取特定的核函数也可也建立一个非线性支持向量机.SVM也可以做一些回归任务,但是它预测的时效性不是太长,他通过训练只能预测比较近的数据变化,至于再往后 ...
机器学习——支持向量机(SVM)之核函数(kernel)
对于线性不可分的数据集,可以利用核函数(kernel)将数据转换成易于分类器理解的形式. 如下图,如果在x轴和y轴构成的坐标系中插入直线进行分类的话, 不能得到理想的结果,或许我们可以对圆中的数据进行 ...
机器学习——支持向量机(SVM)之Platt SMO算法
Platt SMO算法是通过一个外循环来选择第一个alpha值的,并且其选择过程会在两种方式之间进行交替: 一种方式是在所有数据集上进行单遍扫描,另一种方式则是在非边界alpha中实现单遍扫描. 所谓 ...
机器学习常见面试题—支持向量机SVM
前言总结了2017年找实习时,在头条.腾讯.小米.搜狐.阿里等公司常见的机器学习面试题. 支持向量机SVM 关于min和max交换位置满足的 d* <= p* 的条件并不是KKT条件 Ans: ...

随机推荐

asp&period;net identity 2&period;2&period;0 中角色启用和基本使用（二）
建立模型第一步:在Models文件夹上点右键 >添加>类类的名称自定,我用AdminViewModels命名的因为是讲基本使用,我这里不做任何扩展. 第二步:添加如下命名空间 ...
Android Studio教程--从Github 下载一个Repository
从电脑上彻底删除HelloWorld项目回到as欢迎页面复制github中项目的地址点击clone
关于Eclipse项目中加入jquery&period;js文件报错(missing semicolon)问题
在使用Eclipse3.7及以后的版本的时候,加入jQuery文件会报错(missing semicolon),文件中会显示红色小X,虽然这个错误并不会影响项目的运行,但是这个却会大大的影响到开发人员 ...
C++类库介绍
如果你有一定的C基础可能学起来比较容易些,但是学习C++的过程中又要尽量避免去使用一些C中的思想:平时还要多看一些高手写的代码,遇到问题多多思考,怎样才能把问题抽象化,以使自己头脑中有类的概念:最后别 ...
Tomcat&&num;160&semi;ClassLoader机制介绍
本文旨在介绍JVM的类加载机制:同时分析Tomcat不能采用默认的加载机制的原因,并对其加载机制做了介绍. 1.JVM中的类加载机制在Java2之后的版本中,类的加载采用的是一种称为双亲委派的代理模 ...
修改ORACLE-NLS&lowbar;DATE&lowbar;FORMAT时间格式的四种方式
修改ORACLE-NLS_DATE_FORMAT时间格式的四种方式改变ORACLE -NLS_DATE_FORMAT中时间显示格式的显示有以下方式: 1.可以在用户环境变量中指定(LINUX). 在 ...
sql sever[基本] &&num;39&semi;&&num;39&semi;增删改&&num;39&semi;&&num;39&semi; 随笔
结构语言分类 DDL(数据定义语言) create drop alter 创建删除以及修改数据库,表,存储过程,触发器,索引.... DML(数据操作语言) insert delete ...
移动端H5地图矢量SHP网格切分打包方案
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/ 1.背景与离线瓦片方案一样,同样是为了解决移动端网速和流量问题,但是却 ...
[c/c++] programming之路（28）、结构体存储和内存对齐+枚举类型+typedef+深拷贝和浅拷贝
一.结构体存储 #include<stdio.h> #include<stdlib.h> struct info{ char c; //1 2 4 8 double num; ...
【MongoDB-query查询条件】
在上一篇中简要使用了C# 对MongoDB进行数据操作,这里补充一些MongoDB query查询条件文档: Query.All("name", "a",&qu ...