[基础] Loss function （二）

Loss function = Loss term(误差项) + Regularization term(正则项)，上次写的是误差项，这次正则项。

正则项的解释没那么直观，需要知道不适定问题，在经典的数学物理中，人们只研究适定问题。适定问题是指满足下列三个要求的问题：①解是存在的（存在性）；②解是惟一的（唯一性）；③解连续依赖于初边值条件（稳定性）。这三个要求中，只要有一个不满足，则称之为不适定问题。特别，如果条件③不满足，那么就称为阿达马意义下的不适定问题。一般地说不适定问题，常常是指阿达马意义下的不适定问题。

求解不适定问题的普遍方法是:用一组与原不适定问题相“邻近”的适定问题的解去逼近原问题的解,这种方法称为正则化方法。正则化就是对最小化经验误差函数上加约束，这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。约束有引导作用，在优化误差函数的时候倾向于选择满足约束的梯度减少的方向，使最终的解倾向于符合先验知识(如一般的l-norm先验，表示原问题更可能是比较简单的，这样的优化倾向于产生参数值量级小的解，一般对应于稀疏参数的平滑解)。

正则项有以下几种：L0, L1, L2

L0很简单，即为0的单元越多越好，即越稀疏越好，直观粗暴；不过求解过程是NP问题。

L1的宗旨也是稀疏，不过是参数绝对值之和越小越好；可以说是L0的最优凸近似

L2是参数平方和再求平方根

总结三种正则项：

L1优点是能够获得sparse模型，对于large-scale的问题来说这一点很重要，因为可以减少存储空间。缺点是加入L1后目标函数在原点不可导，需要做特殊处理。

L2优点是实现简单，能够起到正则化的作用。缺点就是L1的优点：无法获得sparse模型。

实际上L1也是一种妥协的做法，要获得真正sparse的模型，要用L0正则化

求解：L2 > L1 > L0

性能：L0 > L1 > L2 （可以这么理解，吧...）

秒客网

[基础] Loss function （二）

相关文章