深度学习基础系列（四）| 理解softmax函数

　　深度学习最终目的表现为解决分类或回归问题。在现实应用中，输出层我们大多采用softmax或sigmoid函数来输出分类概率值，其中二元分类可以应用sigmoid函数。

　　而在多元分类的问题中，我们默认采用softmax函数，具体表现为将多个神经元的输出，映射到0 ~ 1的区间中，按概率高低进行分类，各概率之和为1。

　　某分类的概率数学表达式为：y_i= eⁱ/ ∑_j=1e^j

　　具体来说，假设有四个输出单元，分别为：

　　可以看出 y₁ + y₂+ y₃+ y₄ = 1。并且其中某神经元的输出若增加，则其他神经元的输出则减少，反之也成立。

　　最后再看看softmax函数如何求导，令y = e^xⁱ/ ∑e^xk ，分两种情况：

　　1. i为softmax值，我们对e^xi求导，

　　与此相关的基础求导公式：(u/v)^'= (u^'v - uv^') / v² 和 (e^x)^'= e^x，并应用链式法则可得求导过程：

　　　dy/de^xi= ( e^xⁱ/ ∑e^xk)^'

　　　　　　 = (e^xi* ∑e^xk - e^xi* e^xi) / (∑e^xk)²

　　　　　　 = e^xⁱ/ ∑e^xk - (e^xⁱ/ ∑e^xk) * (e^xⁱ/ ∑e^xk)

　　　　　　 = y_xi - y_xi²

　　2. i不为softmax值，我们依然对e^xi求导，其过程为：

　　　dy/de^xi= ( e^x^j/ ∑e^xk)^' 注：i ≠ j

　　　　　　 = (0 * ∑e^xk- e^xj* e^xi) / (∑e^xk)²

　　　　　　 = -1 * (e^xⁱ/ ∑e^xk) * (e^xj/ ∑e^xk)

　　　　　　 = - y_xi* y_xj

秒客网