创建一个针对单个问题的GPT风格语言模型

时间:2024-03-20 15:00:05

标题:为单一问题创建类似GPT的语言模型

正文:

中国的研究人员开发了一种经济高效的方法,用于创建类似GPT-3的自然语言处理系统,同时避免了训练大规模数据集所需的时间和金钱成本——这一趋势日益增长,否则可能会将这一AI领域最终限制在FAANG玩家和高水平投资者手中。

该框架被称为任务驱动的语言建模(TLM)。与在数十亿单词和数千个标签和类别的大型语料库上训练庞大而复杂的模型不同,TLM训练了一个更小的模型,实际上将查询直接嵌入到模型中。

左图是典型的高规模方法,用于大规模语言模型;右图是TLM的精简方法,用于按主题或按问题探索大型语言语料库。来源:https://arxiv.org/pdf/2111.04130.pdf

实际上,为了回答一个单一问题,产生了一个独特的NLP算法或模型,而不是创建一个庞大而笨拙的通用语言模型,该模型可以回答更广泛的问题。

在测试TLM时,研究人员发现,新方法在分类数据集上的表现与预训练语言模型(如RoBERTa-Large)和高规模NLP系统(如OpenAI的GPT-3、Google的万亿参数开关变压器模型、韩国的HyperClover、AI21实验室的Jurassic 1和微软的Megatron-Turing NLG 530B)相似或更好。

在四个领域的八个分类数据集上对TLM进行的试验中,作者还发现,该系统将训练所需的FLOPs(每秒浮点运算次数)减少了两个数量级。研究人员希望TLM能够“*化”一个日益精英化的领域,因为NLP模型如此之大,以至于它们实际上无法在本地安装,而是位于OpenAI(现在还有微软Azure)昂贵且访问受限的API后面。

作者表示,将训练时间减少两个数量级,可以将1000个GPU一天的训练成本降低到仅8个GPU 48小时。

这篇新报告的标题是《无需大规模预训练的自然语言处理:一个简单高效的框架》,来自北京清华大学的三位研究人员和中国AI开发公司Recurrent AI的一位研究人员。

难以负担的答案

训练有效、通用的语言模型的成本日益被视为对NLP在文化中真正扩散的潜在“热极限”的表征。

从2020年A121实验室的报告中对NLP模型架构方面的增长统计。来源:https://arxiv.org/pdf/2004.08900.pdf

2019年,一位研究人员计算出,在512个核心的64台设备上训练2.5天,训练XLNet模型(当时报道称在NLP任务中击败BERT)的成本为61,440美元,而GPT-3的训练成本估计为1200万美元——是其前代GPT-2的200倍(尽管最近的重新估计声称现在可以在最低价的云GPU上以460万美元的价格进行训练)。

基于查询需求的数据子集

相反,新的提议架构试图通过使用查询作为过滤器来定义大型语言数据库中的信息子集,以进行训练,以提供有限主题的答案。

作者表示:

“TLM是由两个关键想法驱动的。首先,人类通过使用世界上很小一部分知识来完成一个任务(例如,学生只需要复习世界上所有书籍中的几章,就可以为考试死记硬背)。

我们假设对于特定任务,大型语料库中存在很多冗余。其次,与在无标签数据上优化语言建模目标相比,在监督标签数据上进行训练对下游性能的数据效率要高得多。基于这些动机,TLM使用任务数据作为查询来检索通用语料库的一小部分。然后,使用检索到的数据和任务数据共同优化监督任务目标和语言建模目标。”

除了使高效的NLP模型训练变得负担得起之外,作者还看到了使用任务驱动NLP模型的许多优点。例如,研究人员可以享受更大的灵活性,包括序列长度、标记化、超参数调整和数据表示的自定义策略。

研究人员还预见到了未来混合系统的开发,这些系统在有限的预训练PLM(这在当前实现中并不预期)与更大的灵活性和泛化能力之间进行权衡,以换取训练时间。他们认为该系统是域内零样本泛化方法的进步。

测试和结果

TLM在四个领域的八个任务上进行了分类挑战的测试——生物医学科学、新闻、评论和计算机科学。任务被分为高资源任务和低资源任务。高资源任务包括5000多个任务数据,如AGNews和RCT等;低资源任务包括ChemProt和ACL-ARC,以及HyperPartisan新闻检测数据集。

研究人员开发了两个训练集,分别命名为Corpus-BERT和Corpus-RoBERTa,后者是前者的十倍大小。实验比较了通用预训练语言模型BERT(来自Google)和RoBERTa(来自Facebook)与新的架构。

论文观察到,尽管TLM是一种通用方法,并且其范围和适用性应该比更广泛和更高容量的最先进模型更有限,但它能够接近域自适应微调方法的性能。

比较TLM与BERT和RoBERTa基于集的表现结果。结果列出了三种不同训练规模的平均F1分数,并列出了参数数量、总训练计算(FLOPs)和训练语料库的大小。

作者得出结论,TLM能够实现与PLMs相当或更好的结果,同时大大减少了所需的FLOPs,并且只需要1/16的训练语料库。在中型和大型规模下,TLM显然可以平均提高0.59和0.24个点的性能,同时将训练数据大小减少两个数量级。

“这些结果证实,TLM的准确度非常高,而且比PLMs更高效。此外,TLM在更大规模下获得更多的效率优势。这表明,更大规模的PLMs可能已经训练了更多的不特定任务的一般知识。”