Knowledge Graph Embedding: A Survey of Approaches and Applications【翻译】

原文地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8047276

论文名称：Knowledge Graph Embedding: A Survey of Approaches and Applications

作者：Quan Wang , Zhendong Mao , Bin Wang, and Li Guo

摘要

知识图(KG)嵌入是将包含实体和关系的KG构件嵌入到连续的向量空间中，从而在保持KG固有结构的同时简化操作。它可以用于多种下游任务，如KG构建和关系提取，因此很快得到了广泛的关注。在本文中，我们将系统地回顾现有的技术，不仅包括最先进的技术，而且还包括那些具有最新趋势的技术。特别地，我们根据嵌入任务中使用的信息类型进行审查。首先介绍仅使用在KG中观察到的事实进行嵌入的技术。我们描述了整体框架，具体的模型设计，典型的训练过程，以及这些技术的优缺点。在此之后，我们讨论进一步合并事实之外的附加信息的技术。我们特别关注实体类型、关系路径、文本描述和逻辑规则的使用。最后，我们简要介绍了如何将KG嵌入应用到各种下游任务中，并使之受益，如KG构建、关系提取、问题回答等。

Index Terms—Statistical relational learning, knowledge graph embedding, latent factor models, tensor/matrix factorization models

1 介绍

近年来知识图谱(KG)的构建和应用发展迅速。大量的知识图谱,如Freebase[1],DBpedia [2], YAGO[3],NELL[4],创建并成功地应用于许多实际的应用程序,从语义解析[5],[6]和命名实体消歧[7],[8],信息提取[9],[10]和问答系统[11],[12]。KG是由实体(节点)和关系(不同类型的边)组成的多关系图。每条边都表示为形式(头实体、关系、尾实体)的三个部分，也称为事实，表示两个实体由特定的关系连接，例如(AlfredHitchcock, DirectorOf, Psycho)。虽然在表示结构化数据方面很有效，但是这类三元组的底层符号特性通常使KG很难处理。

针对这一问题，一种新的研究方向被提出来——知识图谱嵌入（knowledge graph embedding），并迅速引起了人们的广泛关注:[13]、[14]、[15]、[16]、[17]、[18]、[19]。其关键思想是将包含实体和关系的KG组件嵌入到连续的向量空间中，从而在保持KG固有结构的同时简化操作。这些实体和关系嵌入可以进一步用于各种任务，如KG完成[14]、[15]、关系提取[20]、[21]、实体分类[13]、[22]、实体解析[13]、[18]。

目前大多数可用的技术仅根据观察到的事实来执行嵌入任务。对于给定的KG，这种技术首先表示连续向量空间中的实体和关系，并定义每个事实的评分函数来度量其合理性。实体和关系嵌入可以通过最大化观察到的事实的总可信度来获得。在整个过程中，所学习的嵌入只需要在每个单独的事实中兼容，因此对于下游任务[23]和[24]可能没有足够的预测性。因此，越来越多的研究者开始进一步利用其他类型的信息，如实体类型[25]、[26]、关系路径[27]、[28]、[29]、文本描述[30]、[31]、[32]、[33]，甚至逻辑规则[23]、[23]1、[23]0，来学习更多的预测性嵌入。

在本文中，我们将全面回顾当前可用的KG嵌入技术，包括那些仅使用事实的技术，以及那些进一步利用其他信息的技术。我们还将进一步介绍如何将学到的嵌入应用于各种面向实体的任务并从中受益。Nickel等人对KGs的统计相关学习方法进行了综述，包括嵌入技术、路径排序算法[37]、[38]、[39]，以及马尔科夫逻辑网络[40]、[41]、[42]。与他们的工作相比，我们特别关注KG嵌入，并对现有技术进行了系统的回顾，不仅包括最新的技术，还包括那些具有最新趋势的技术。特别地，我们根据这些技术中使用的信息类型来进行回顾。

本文的其余部分组织如下。第2节简要介绍基本符号。第3节回顾了仅使用KGs中观察到的事实进行嵌入的技术。我们描述了整体框架，具体的模型设计，典型的培训过程，以及这些技术的优缺点。第4节讨论进一步合并事实之外的其他信息的嵌入技术。我们主要关注实体类型、关系路径、文本描述和逻辑规则的使用。第5节进一步探讨了KG嵌入在下游任务中的应用，如KG完成、关系提取和问题回答。最后，我们在第6节中提出我们的结束语。

2 符号

3 事实本身的知识图谱嵌入

假设我们有一个KG，由n个实体和m个关系组成。事实在KG中以三元组的形式存储。每一个三元组由一个头部的实体、一个尾部的实体以及代表他们之间的关系组成。例如，(阿尔弗莱德希区柯克，导演，心理)。这里，E表示实体集，IR表示关系集。大多数当前可用的技术使用存储在KG中的事实来执行嵌入任务，强制嵌入与事实兼容。

假设我们有一个KG，由n个实体和m个关系组成。典型的KG嵌入技术通常包括三个步骤:(i)表示实体和关系，(ii)定义得分函数，(iii)学习实体和关系表示。第一步指定实体和关系在连续向量空间中表示的形式。实体通常用向量表示，即向量空间中的确定性点[13][14][15][16][19]。假设我们有一个KG，由n个实体和m个关系组成。最近在[45]的工作进一步考虑了实体的不确定性，并通过多元高斯分布对它们进行建模。通常将关系作为向量空间中的运算，向量空间可以表示为向量[14]、[15]、矩阵[16]、[18]、张量[19]、多元高斯分布[45]，甚至混合高斯[46]。然后,在第二步中,得分函数;用每个事实（h,r,t)来衡量其合理性。在KG中观察到的事实往往比那些没有观察到的有更高的分数。最后，学习这些实体和关系表示。

假设我们有一个KG，由n个实体和m个关系组成。我们大致将这种嵌入技术分为两类:平移距离模型(translational distance models )和语义匹配模型(semantic matching models)。前者使用基于距离的评分函数，后者使用基于相似性的评分函数。在本节中，我们首先介绍这两组嵌入技术，然后讨论它们的训练过程。然后，我们比较了这些嵌入技术的效率和有效性。

3.1平移距离模型

平移距离模型利用基于距离的评分函数。他们用两个实体之间的距离来衡量一个事实的合理性，通常是在通过关系进行翻译之后。

3.1.1 TransE及其扩展

TransE.

TransE[14]是最具代表性的平移距离模型（translational distance model）。它将实体和关系都表示为同一空间中的向量，比如Rd。给出一个事实(h,r,t),他们的关系可以用一个平移矢量（ translation vector）r代表，所以h和t可以用r连接,例如：h r≈t。这里的直觉来自于[47]，它学习分布式表示来获取语言规则，例如：Psycho - AlfredHitchcock ≈ Avatar - JamesCameron。在多关系数据中这样的类比是成立的，我们可以得到这样的关系：AlfredHitchcock DirectorOf ≈ Psycho and JamesCameron DirectorOf ≈ Avatar。图1a给出了这一想法的简单说明。得分函数被定义为h r和t之间的距离,即：