DiffPruning:差异修剪的有效参数传递学习

时间:2021-05-24 06:34:52
【文件属性】:
文件名称:DiffPruning:差异修剪的有效参数传递学习
文件大小:6.5MB
文件格式:ZIP
更新时间:2021-05-24 06:34:52
Python 带有参数修剪的参数有效转移学习 尽管针对特定任务的预训练网络微调已在NLP方面取得了重大的经验进步,但网络规模庞大,使得微调难以部署在多任务,受内存限制的环境中。 我们建议使用diff修剪作为一种简单的方法,以在pretrain-finetune框架内实现参数有效的传递学习。 这种方法将微调视为学习特定于任务的差异向量,该向量应用在预训练的参数向量之上,该向量保持不变并在不同任务之间共享。 diff向量在训练期间以L0-范数罚分的可微近似方式进行自适应修剪,以鼓励稀疏性。 随着任务数量的增加,差异修剪变得参数有效,因为它只需要为每个任务存储差异向量的非零位置和权重,而存储共享的预训练模型的成本保持不变。 此外,它不需要在培训期间访问所有任务,这使其在任务到达流或任务集未知的设置中很有吸引力。 我们发现,使用diff修剪进行微调的模型可以匹配GLUE基准上完全微调的基线的性能,而每个任务仅修

网友评论