how much the new input should be written to the memory cell 应该向存储单元写入多少新输入
and how much content of the current memory cell should be forgotten 以及当前内存单元格中有多少内容应该被遗忘

3.3 Gating Vector

- A gate g is a vector

each element has values between 0 to 1

- g is multiplied component-wise with vector v, to determine how much information to keep for v 将 g 与向量 v 按分量相乘，以确定要为 v 保留多少信息

- Use sigmoid function to produce g:

values between 0 to 1

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

3.4 Simple RNN vs. LSTM

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

3.5 LSTM: Forget Gate

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

3.6 LSTM: Input Gate

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

3.7 LSTM: Update Memory Cell

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

3.8 LSTM: Output Gate

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

3.9 LSTM: Summary

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

4. Applications

4.1 Shakespeare Generator

- Training data = all works of Shakespeare

- Model: character RNN, hidden dimension = 512

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

4.2 Wikipedia Generator

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

Training data = 100MB of Wikipedia raw data

4.3 Code Generator

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

4.4 Deep-Speare

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

4.5 Text Classification

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

4.6 Sequence Labeling

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

4.7 Variants

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

4.8 Multi-layer LSTM

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

4.9 Bidirectional LSTM

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

5. Final Words

Pros

- Has the ability to capture long range contexts 有能力捕捉远距离环境

- Just like feedforward networks: flexible 就像前馈网络一样: 灵活

Cons

- Slower than FF networks due to sequential processing 由于顺序处理，比 FF 网络慢

- In practice doesn't capture long range dependency very well (evident when generating very long text) 实际上并不能很好地捕捉到长距离依赖关系(当生成非常长的文本时显而易见)

- In practice also doesn't stack well (multi-layer LSTM) 实际上也不能很好地叠加(多层 LSTM)

- Less popular nowadays due to the emergence of more advanced architectures 现在没那么受欢迎了

秒客网

自然语言处理（七）： Deep Learning for NLP: Recurrent Networks

1. N-gram Language Models

2. Recurrent Neural Networks

2.1 RNN Unrolled

2.2 RNN Training

2.3 (Simple) RNN for Language Model

2.4 RNN Language Model: Training

2.5 RNN Language Model: Generation

3. Long Short-term Memory Networks

3.1 Language Model… Solved?

3.2 Long Short-term Memory (LSTM)

3.3 Gating Vector

3.4 Simple RNN vs. LSTM

3.5 LSTM: Forget Gate

3.6 LSTM: Input Gate

3.7 LSTM: Update Memory Cell

3.8 LSTM: Output Gate

3.9 LSTM: Summary

4. Applications

4.1 Shakespeare Generator

4.2 Wikipedia Generator

4.3 Code Generator

4.4 Deep-Speare

4.5 Text Classification

4.6 Sequence Labeling

4.7 Variants

4.8 Multi-layer LSTM

4.9 Bidirectional LSTM

5. Final Words

相关文章