动态记忆网络(DMN)

时间:2022-09-18 15:35:51

论文:Ask Me Anything: Dynamic Memory Networks for Natural Language Processing

1、概述

  Question answering(QA)是一个复杂的自然语言处理任务,它需要杰出的文本理解力和推理能力。自然语言处理中不部分任务都可以归结为 QA 问题。例如机器翻译(这句话翻译成法语是什么?);序列标注问题(包括词性标注、命名实体识别等);情感分类等。动态神经网络(DMN)是一个统一的神经网络框架,可以用来处理输出的问题序列,形成语义与情景记忆,然后生成相应的答案。DMN 的整体流程就是输入数据(包括数据和问题),然后生成相应的记忆片段,最后解析生成回答。

2、动态神经网络结构

  动态神经网络包含了5个模块:输入模块、语义记忆模块、问题模块、片段记忆模块、回答模块。具体的网络结构如下:

    动态记忆网络(DMN)

  1)输入模块

  输入模块可以看作一个函数的中间过程,而这个函数最终将返回一个向量表示。输入模块将它的中间值发送给片段记忆模块,片段记忆模块基于问题模块输入的问题和注意机制完成上述函数的计算。输入模块是一个循环神经网络,一般选用GRU,它的输入是词向量(可以通过Glove或者word2vec获得),通过给定的词向量去计算隐藏状态 $c_t$ 。其计算公式如下:

  $ c_t = SEQ-MODEL(L[w_t^I], h_{t-1})$

  其中 $L$ 是词嵌入矩阵,$w_t^I$ 是第 $t$ 个词的输入序列。

  输入模块的输出序列是多个。在输入只有一个句子的情况下,输入模块输出 GRU 的所有隐藏状态。在输入是多个句子的情况下,我们将所有句子拼接,并在每个句子末尾插入句末标记, 每个句末标记的位置的隐藏状态作为输出。

  2)语义记忆模块

  在上面图中的语义记忆模块是Glove词向量,事实上就是用来生成词向量的模块,作为输入模块的输入。不过作者说在本工作总没有使用它。

  3)问题模块

  问题模块的模型和输入模块相同,并且共享输入模块中的网络结构和词嵌入权重。问题模块的主要作用是帮助片段记忆模块去提取输入模块中输入的信息。隐藏状态的计算公式和输入模块相同,但是输出的结果只有最后时刻的向量值。

  4)片段记忆模块

  片段记忆网络基于问题模块中的问题来检索出输入模块中的有用信息。然后推断这些信息生成一个最终的信息表示(也称为记忆),回答模块会基于这个信息表示生成回答。而且片段记忆模块允许多词输入信息,通过注意机制关注每次输入的不同信息。每个输入都会产生一个片段,最后将这些片段归结为记忆。这样我们的模块就可以由多个片段组成,注意机制会关注每个片段的重要信息。这样就行成了传递式推理,因为第一次输入后也许会发现我们需要更多的信息才能得到好的结果。

  例如上图中的例子:

  $ question\ :\ Where\ is\ the\ football?$

  $ inpyt\ :\ John\ put\ down\ the\ football.$

  通过上面的输入和并不能很好的解决问题,而且又引入了新的问题,因此需要进一步迭代无寻找关于 $John$ 的输入,正如上图中一个问题对应了三个输入一样。值得注意的是在第二次迭代时错误的给予了输入模块中句子2一些权重(0.3)。

  片段记忆模块中的模型是GRU网络,在这里使用门函数作为注意机制,表达式如下:

    $ g_t^i = G(c_t, m^{i-1}, q) $

  在这里 $c_t$ 表示本次输入的值,$m^{i-1}$ 表示 $i-1$ pass时的值,$ q$ 表示问题向量。具体的门函数表达式如下:

    $G(c, m, q) = \sigma(W^{(2)} tanh(W^{(1)}z(c,m,q) + b^{(1)}) + b^{(2)})$

  隐藏层更新表达式:

    $ h_t^i = g_t^iGRU(c_t, h_{t-1}^i) + (1-g_t^i)h_{t-1}^i$

  第 $i $ 次pass的计算片段,为第 $i$ 个序列的隐藏层最后的输出值,其表达是如下:

    $ e^i = h_{T_C}^i$

  第 $i $ 次pass之后的记忆值,其计算公式如下:

    $ m^i = GRU(e^i, m^{i-1})$

  5)回答模块

  回答模块也是一个GRU网络,从记忆中解码处代表答案的单词序列。回答模块中的网络可以看作是一对多的输入-输出结构。

  初始化输入值:$a_0 = m$

  $ t $ 时刻的值:$a_t = GRU([y_{t-1}, q], a_{t-1})$

  输出值:$ y_t = softmax(W^{(a)};a_t)$

3、训练模型

  模型的损失函数:回答序列的交叉熵。

  最小化回答序列的交叉熵来训练模型。

  

动态记忆网络(DMN)的更多相关文章

  1. 【深度学习Deep Learning】资料大全

    最近在学深度学习相关的东西,在网上搜集到了一些不错的资料,现在汇总一下: Free Online Books  by Yoshua Bengio, Ian Goodfellow and Aaron C ...

  2. 论文笔记:Learning Dynamic Memory Networks for Object Tracking

    Learning Dynamic Memory Networks for Object Tracking  ECCV 2018Updated on 2018-08-05 16:36:30 Paper: ...

  3. fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择

    https://mp.weixin.qq.com/s/_xILvfEMx3URcB-5C8vfTw 这个库的目的是探索用深度学习进行NLP文本分类的方法. 它具有文本分类的各种基准模型,还支持多标签分 ...

  4. 斯坦福大学CS224d课程目录

    https://www.zybuluo.com/hanxiaoyang/note/404582 Lecture 1:自然语言入门与次嵌入 1.1 Intro to NLP and Deep Learn ...

  5. NLP十大里程碑

    NLP十大里程碑 2.1 里程碑一:1985复杂特征集 复杂特征集(complex feature set)又叫做多重属性(multiple features)描写.语言学里,这种描写方法最早出现在语 ...

  6. NLP项目

    GitHub NLP项目:自然语言处理项目的相关干货整理 自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域.本文作者为自然语言处理NLP初学者整理了 ...

  7. NLP文本分类方法汇总

    模型: FastText TextCNN TextRNN RCNN 分层注意网络(Hierarchical Attention Network) 具有注意的seq2seq模型(seq2seq with ...

  8. 一文看懂NLP神经网络发展历史中最重要的8个里程碑!

    导读:这篇文章中作者尝试将 15 年的自然语言处理技术发展史浓缩为 8 个高度相关的里程碑事件,不过它有些偏向于选择与当前比较流行的神经网络技术相关的方向.我们需要关注的是,本文中介绍的许多神经网络模 ...

  9. 指针生产网络(Pointer-Generator-Network)原理与实战

    0 前言 本文内容主要:介绍Pointer-Generator-Network在文本摘要任务中的背景,模型架构与原理.在中英文数据集上实战效果与评估,最后得出结论.参考的<Get To The ...

随机推荐

  1. debug 断点无效

    如果出现这样的情况 需要在debug下配置 配置好之后,断点测试即可,亲测有效.

  2. MySQL中函数CONCAT及GROUP&lowbar;CONCAT

    一.CONCAT()函数CONCAT()函数用于将多个字符串连接成一个字符串.使用数据表Info作为示例,其中SELECT id,name FROM info LIMIT 1;的返回结果为+----+ ...

  3. android adt与android sdk有什么关系,他们在开发中各起到什么作用

    ADT(Android Development Tools):目前Android开发所用的开发工具是Eclipse,在Eclipse编译IDE环境中,安装ADT,为Android开发提供开发工具的升级 ...

  4. C&num; 获取随机可用端口号

    TCP与UDP段结构中端口地址都是16比特,可以有在0---65535范围内的端口号.对于这65536个端口号有以下的使用规定: (1)端口号小于256的定义为常用端口,服务器一般都是通过常用端口号来 ...

  5. JVM常量池和八种基本数据及字符串

    迄今为止看到的对常量池和字符串最为透彻的解释,赞一个! 常量池(constant_pool)指的是在编译期被确定,并被保存在已编译的.class文件中的一些数据.它包括了关于类.方法.接口等中的常量, ...

  6. 【Android Studio安装部署系列】四十二、Android Studio使用Eclipse中的keystore为App签名

    版权声明:本文为HaiyuKing原创文章,转载请注明出处! 概述 从eclipse迁移到AndroidStudio,要用原Eclipse的签名文件,这样才能保证转到AndroidStudio后更新的 ...

  7. jsp关闭或刷新浏览器(解决浏览器不兼容),请求后台onbeforeunload、onunload

    jsp关闭或刷新浏览器(解决浏览器不兼容),请求后台  onbeforeunload.onunload 1.看代码: function test(e) { var json = "退出,清理 ...

  8. linux下的文件解压命令

    说一下tar命令的参数含义:z,使用gzip解压,x:extract解压,v:显示详细信息,f:使用归档在当前文件夹. 在解压时出现了解压失败,原因是没有sudo,无法创建文件夹.

  9. 清华大学OS操作系统实验lab1练习知识点汇总

    lab1知识点汇总 还是有很多问题,但是我觉得我需要在查看更多资料后回来再理解,学这个也学了一周了,看了大量的资料...还是它们自己的80386手册和lab的指导手册觉得最准确,现在我就把这部分知识做 ...

  10. css中:hover空格

    前面有空格后代所有节点,前面无空格第一个节点 <div class="task-item"> <span><input type="chec ...