吴恩达深度学习第1课第4周

学习了吴恩达老师深度学习工程师第一门课，受益匪浅，尤其是吴老师所用的符号系统，准确且易区分．
遵循吴老师的符号系统，我对任意层神经网络模型进行了详细的推导，形成笔记．
有人说推导任意层MLP很容易，我表示怀疑啊．难道又是我智商的问题嘛╮（╯＿╰）╭．
推导MLP，我用了一天．最后完成了，我就放心了，可以进行下一部分学习了：）
推这玩意是个脏活累活，直接记住向量化表示(结果)也是极好的.
顺便说一下，本文的图片若看不清，可以另存为本地文件放大看(scan的时候我定了较高的精度)，更清楚^^

该笔记目的为：记录推导过程，供自己复习．

0. 为推导顺利而总结的经验

该部分内容是我推导后才总结的．但我觉得应该放在最前面，最显眼的位置，里面的内容还是很重要的．
吴恩达深度学习第1课第4周

1. 搭建实例，明确符号系统，理顺正向、反向传播过程，明确 loss function

需要说明的是，loss function, dAL和任务有关．
我们模型输出层就１个单元，且为sigmoid单元. (原因是假定模型要跑一个二分类任务)
其他层用什么单元就无所谓了（我们的符号系统都能表示，如\(A^{[l]}=g^{[l]}(Z^{[l]})\)里面的\(g^{[l]}(\cdot)\)表示的就是模型中第\(l\)层所用的 activation function），如 sigmoid, relu, tanh单元或其他改进的relu单元．这些东西在吴老师的课程中都有详细讲解．
吴恩达深度学习第1课第4周

2. 考察dAL

吴恩达深度学习第1课第4周

3. 与大牛不符之dAL中的\(\frac{1}{m}\)为啥消失了？

dAL中的\(\frac{1}{m}\)为啥消失了？吴老师的推导中是没有\(\frac{1}{m}\)的，而我的推导里是有的．和超级大牛的答案不符，那就是我错了？（我错的地方请指出，谢谢啦）
这个问题解决了，我的推导是对的！原因是：2017.11.13这天，我正在做吴恩达深度学习工程师第二课第一周编程作业，发现Ng老师提供的init_utils.py文件里的 backward_propagation(X, Y, cache)函数（关于一个三隐层神经网络的反向传播函数）中有这样一句话：dz3 = 1./m * (a3 - Y)，因此，我的推导是正确的，dAL应该有\(\frac{1}{m}\)这一项. init_utils.py的函数 backward_propagation(X, Y, cache)的完整代码如下：

def backward_propagation(X, Y, cache):
"""
 Implement the backward propagation presented in figure 2.
 
 Arguments:
 X -- input dataset, of shape (input size, number of examples)
 Y -- true "label" vector (containing 0 if cat, 1 if non-cat)
 cache -- cache output from forward_propagation()
 
 Returns:
 gradients -- A dictionary with the gradients with respect to each parameter, activation and pre-activation variables
 """
    m = X.shape[1]
    (z1, a1, W1, b1, z2, a2, W2, b2, z3, a3, W3, b3) = cache

    dz3 = 1./m * (a3 - Y)  # <----------- 就是这句话，表明我的推导是正确的．
    dW3 = np.dot(dz3, a2.T)
    db3 = np.sum(dz3, axis=1, keepdims = True)

    da2 = np.dot(W3.T, dz3)
    dz2 = np.multiply(da2, np.int64(a2 > 0))
    dW2 = np.dot(dz2, a1.T)
    db2 = np.sum(dz2, axis=1, keepdims = True)

    da1 = np.dot(W2.T, dz2)
    dz1 = np.multiply(da1, np.int64(a1 > 0))
    dW1 = np.dot(dz1, X.T)
    db1 = np.sum(dz1, axis=1, keepdims = True)

    gradients = {"dz3": dz3, "dW3": dW3, "db3": db3,
"da2": da2, "dz2": dz2, "dW2": dW2, "db2": db2,
"da1": da1, "dz1": dz1, "dW1": dW1, "db1": db1}

return gradients