关于ResNet的假说

时间:2024-04-20 07:03:59

ResNet

最核心的思想就是 恒等映射吧

image-20240419172155392

image-20240419173943766

那么现在来提出几个问题:

  1. 为什么deeper 以后train L 会增加?
  2. 恒等映射会解决什么问题?能否解决梯度非常陡峭的问题?
  3. 你想到了什么模型有类似的问题,如何进行改进的?

image-20240419173224798

assumption & answer:

  1. parameter 的累积影响到梯度下降法,使得梯度消失(也有可能梯度变得很大 )(类似RNN)image-20240419173552005
  2. 可以用来处理梯度平缓 也就是梯度消失的问题;(0.0001 和 0.9 的梯度都是0);引入恒等映射相当于不论我叠多少层,L(MOdel(x)-x) = w 2 (假设我这里超过两层就用恒等映射),则避免了 w999 出现的 梯度消失和梯度变化陡峭的问题;
  3. RNN 中的梯度变化 — > LSTM 引入记忆细胞和门控开关解决(但是LSTM 相当于用上一层的输出求和来抵消w变化的程度使得当0.910(1000) 和 0.110(10)) 差距比本来要大一些,尽可能抵消参数指数的影响

参考论文:Deep Residual Learning for Image Recognition