关于数据集

最初的ACM论文数据集中，包含的数据有论文的ID、标题、摘要、关键字、引用关系、CCS分类，以及论文摘要中句子级别的子空间标记（研究背景、研究问题、贡献、方法、实验）。但是没有论文的year,venue属性，即论文发表的年份和发表的期刊或会议信息，所以需要再去爬取或者直接搜集数据。
第一个想法是直接搜集论文数据集，然后找到两个数据集之间的论文匹配关系。我们选择添加链接描述作为数据来源。该数据集包含了 Microsoft Academic Graph (MAG) 的 1.66192182 亿篇论文及 AMiner 的 1.54771162 亿篇论文。研究者生成了两个学术图表646万个链接关系（matching），并表示在未来会呈现包括作者在内的更多链接结果。这个数据集可以用于进行引用网络（citation network）、论文内容等多种数据集成研究。整个数据集包括以下三个方面:
数据预处理——数据集分析

即链接关系、MAG 论文集及 AMiner 论文集。
在链接关系中，两个数据集的论文会以 ID 的形式呈现，例：
{
“mid”: “xxxx”,
“aid”: “yyyy”
}
其中，mid 指的是 MAG 的论文 ID，而 aid 则是 AMiner 的论文 ID。
对于数据集 MAG 论文和 AMiner 论文而言，每篇论文都是一个 JSON 对象。其数据模式是：
数据预处理——数据集分析
由于ACM数据集中论文id的表示方法（只有数字）与OAG数据集中论文id的表示方法（数字和小写字母组成的字符串）不同，所以不能根据论文id进行查找和匹配。我们只能根据paper title在OAG数据集汇中来查找对应的论文，并且取出venue和year信息。
思路如下:对于OAG数据集的处理，把每一篇论文对应的title、year、venue取出来形成一个新的json数据，title数据要全部处理成小写。对于ACM中的每一篇论文，用论文题目去OAG数据集中找到对应的论文，提取出year和venue信息。生成对应的txt文件，每一行对应一篇论文。
代码还没有写，因为数据集太大，前期下载花了很多时间…

秒客网

数据预处理——数据集分析

关于数据集

相关文章