1. 前言

最近又重新复习了一遍支持向量机（SVM）。其实个人感觉SVM整体可以分成三个部分：

1. SVM理论本身：包括最大间隔超平面（Maximum Margin Classifier），拉格朗日对偶（Lagrange Duality），支持向量（Support Vector），核函数（Kernel）的引入，松弛变量的软间隔优化（Outliers），最小序列优化（Sequential Minimal Optimization）等。

2. 核方法（Kernel）：其实核方法的发展是可以独立于SVM来看待的，核方法在很多其它算法中也会应用到。

3. 优化理论：这里主要介绍的是最小序列优化（Sequential Minimal Optimization），优化理论的发展也是独立于SVM的。

2. SVM理论基础

SVM的理论基础在上一篇博客的总结中可以参考：支持向量机SVM总结。

对于支持向量机（SVM）的简单总结：

1. Maximum Margin Classifier

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

2. Lagrange Duality

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

3. Support Vector

4. Kernel

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

5. Outliers

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

6. Sequential Minimal Optimization

个人觉得SMO又可以分为两部分：

（1）如何选择每次迭代时候的目标工作集，即选择哪两个拉格朗日乘子来迭代。

（2）如何对选择好的工作集（拉格朗日乘子）进行更新迭代。

3. SMO最初的版本（Platt，1998）

　　 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

SMO就是要解这个凸二次规划问题，这里的C是个很重要的参数，它从本质上说是用来折中经验风险和置信风险的，C越大，置信风险越大，经验风险越小；并且所有的拉格朗日乘子都被限制在了以C为边长的大盒子里。SMO的出现使得我们不必去求助于昂贵的第三方工具去解决这个凸二次规划问题，目前对它的改进版本很多，这一节先介绍它的最初形式和思想。

SMO是Microsoft Research的John C. Platt在《Sequential Minimal Optimization:A Fast Algorithm for Training Support Vector Machines》一文中提出的，其基本思想是将Vapnik在1982年提出的Chunking方法推到极致，即：通过将原问题分解为一系列小规模凸二次规划问题而获得原问题解的方法，每次迭代只优化由2个点组成的工作集，SMO算法每次启发式地选择两个拉格朗日乘子同时固定其它拉格朗日乘子来找到这两个拉格朗日乘子的最优值，直到达到停止条件。

(1)、 KKT条件

SMO是以C-SVC的KKT条件为基础进行后续操作的，这个KKT条件是：

其中 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

上述条件其实就是KT互补条件，SVM学习——软间隔优化一文，有如下结论：

　　　　　　 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

从上面式子可以得到的信息是：当 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结时，松弛变量，此时有：，对应样本点就是误分点；当时，松弛变量为零，此时有，对应样本点就是内部点，即分类正确而又远离最大间隔分类超平面的那些样本点；而 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结时，松弛变量为零，有，对应样本点就是支持向量。

(2)、凸优化问题停止条件

对于凸优化问题，在实现时总需要适当的停止条件来结束优化过程，停止条件可以是：

1、监视目标函数 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结的增长率，在它低于某个容忍值时停止训练，这个条件是最直白和简单的，但是效果不好；

2、监视原问题的KKT条件，对于凸优化来说它们是收敛的充要条件，但是由于KKT条件本身是比较苛刻的，所以也需要设定一个容忍值，即所有样本在容忍值范围内满足KKT条件则认为训练可以结束；

3、监视可行间隙，它是原始目标函数值和对偶目标函数值的间隙，对于凸二次优化来说这个间隙是零，以一阶范数软间隔为例：

原始目标函数 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结与对偶目标函数的差为：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

定义比率： [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结，可以利用这个比率达到某个容忍值作为停止条件。

(3)、SMO思想

沿袭分解思想，固定“Chunking工作集”的大小为2，每次迭代只优化两个点的最小子集且可直接获得解析解，算法流程：

(4)、仅含两个Langrange乘子解析解

为了描述方便定义如下符号：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

于是目标函数就变成了：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

注意第一个约束条件： [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结，可以将看作常数，有(为常数，我们不关心它的值)，等式两边同时乘以，得到（为常数，其值为，我们不关心它，）。将用上式替换则得到一个只含有变量的求极值问题：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

这下问题就简单了，对 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结求偏导数得到：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

将 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结、带入上式有：

带入 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结、，用，表示误差项(可以想象，即使分类正确，的值也可能很大)、(是原始空间向特征空间的映射)，这里可以看成是一个度量两个样本相似性的距离，换句话说，一旦选择核函数则意味着你已经定义了输入空间中元素的相似性。

最后得到迭代式：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

注意第二个约束条件——那个强大的盒子： [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结，这意味着也必须落入这个盒子中，综合考虑两个约束条件，下图更直观：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结和异号的情形

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结和同号的情形

可以看到 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结两个乘子既要位于边长为C的盒子里又要在相应直线上，于是对于的界来说，有如下情况：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

整理得下式：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

又因为 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结，，消去后得到：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

(5)、启发式的选择方法

根据选择的停止条件可以确定怎么样选择点能对算法收敛贡献最大，例如使用监视可行间隙的方法，一个最直白的选择就是首先优化那些最违反KKT条件的点，所谓违反KKT条件是指：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

由前面的停止条件3可知，对可行间隙贡献最大的点是那些

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

其中， [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

取值大的点，这些点导致可行间隙变大，因此应该首先优化它们，原因如下：

1、当满足KKT条件：即 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结时，

当违背KKT条件：即 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结时，，于是

可见，由于违背KKT条件导致可行间隙变大；

2、当满足KKT条件：即 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结时，

当违背KKT条件：即 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结时

若 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结则且，其中

可见，由于违背KKT条件依然导致可行间隙变大；

3、当满足KKT条件：即 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结时，

当违背KKT条件：即 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结时，且，其中

可见，由于违背KKT条件还是会导致可行间隙变大。

SMO的启发式选择有两个策略：

启发式选择1：

最外层循环，首先，在所有样本中选择违反KKT条件的一个乘子作为最外层循环，用“启发式选择2”选择另外一个乘子并进行这两个乘子的优化，接着，从所有非边界样本中选择违反KKT条件的一个乘子作为最外层循环，用“启发式选择2”选择另外一个乘子并进行这两个乘子的优化(之所以选择非边界样本是为了提高找到违反KKT条件的点的机会)，最后，如果上述非边界样本中没有违反KKT条件的样本，则再从整个样本中去找，直到所有样本中没有需要改变的乘子或者满足其它停止条件为止。

启发式选择2：

内层循环的选择标准可以从下式看出：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

要加快第二个乘子的迭代速度，就要使 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结最大，而在上没什么文章可做，于是只能使最大。

确定第二个乘子方法：

1、首先在非界乘子中寻找使得 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结最大的样本；
2、如果1中没找到则从随机位置查找非界乘子样本；
3、如果2中也没找到，则从随机位置查找整个样本(包含界上和非界乘子)。

(6)、关于两乘子优化的说明

由式子

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

可知：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

于是对于这个单变量二次函数而言,如果其二阶导数 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结，则二次函数开口向下，可以用上述迭代的方法更新乘子，如果，则目标函数只能在边界上取得极值(此时二次函数开口向上)，换句话说，SMO要能处理取任何值的情况，于是在 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结时有以下式子：

1、 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结时：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

2、 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结时：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

3、 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

分别将乘子带入得到两种情况下的目标函数值： [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结和。显然，哪种情况下目标函数值最大，则乘子就往哪儿移动，如果目标函数的差在某个指定精度范围内，说明优化没有进展。

另外发现，每一步迭代都需要计算输出 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结进而得到，于是还要更新阈值，使得新的乘子、满足KKT条件，考虑、至少有一个在界内，则需要满足，于是的迭代可以这样得到：

1、设 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结在界内，则：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

又因为：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

于是有：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

等式两边同乘 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结后移项得：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结；

2、设 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结在界内，则：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结；

3、设 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结、都在界内，则：情况1和情况2的值相等，任取一个；

4、设 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结、都不在界内，则：取值为情况1和情况2之间的任意值。

(7)、提高SMO的速度

从实现上来说，对于标准的SMO能提高速度的地方有：

1、能用缓存的地方尽量用，例如，缓存核矩阵，减少重复计算，但是增加了空间复杂度；

2、如果SVM的核为线性核时候，可直接更新 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结，毕竟每次计算的代价较高，于是可以利用旧的乘子信息来更新，具体如下：

[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结，应用到这个性质的例子可以参见SVM学习——Coordinate Desent Method。

3、关注可以并行的点，用并行方法来改进，例如可以使用MPI，将样本分为若干份，在查找 [笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结最大的乘子时可以现在各个节点先找到局部最大点，然后再从中找到全局最大点；又如停止条件是监视对偶间隙，那么可以考虑在每个节点上计算出局部可行间隙，最后在master节点上将局部可行间隙累加得到全局可行间隙。

对标准SMO的改进有很多文献，例如使用“Maximal Violating Pair ”去启发式的选择乘子是一种很有效的方法，还有使用“ Second Order Information”的方法，我觉得理想的算法应该是：算法本身的收敛速度能有较大提高，同时算法可并行程度也较高。