PreSTU：一个专门为场景文本理解而设计的简单预训练模型

摘要：在视觉与语言（V&L）模型中，阅读和推理图像中的文本的能力往往是缺乏的。我们如何才能学习出强大的场景文本理解（STU）的V&L模型呢？

本文分享自华为云社区《场景文本理解预训练PreSTU》，作者： Hint 。

【论文摘要】

在视觉与语言（V&L）模型中，阅读和推理图像中的文本的能力往往是缺乏的。我们如何才能学习出强大的场景文本理解（STU）的V&L模型呢？本文提出了PreSTU，一个专门为场景文本理解而设计的简单预训练模型。PreSTU将一个简单的OCR感知预训练目标与一个具有现成OCR信号的大规模图像-文本数据集相结合。我们在TextVQA、TextCaps、ST-VQA和VizWiz-VQA上经验性地证明了这个预训练目标的优越性。我们还研究了哪些因素会影响STU的性能，其中我们强调了图像分辨率和数据集规模在预训练中的重要性。

【出发点】

在真实世界中的视觉语言任务中，有大量的图像是包含场景文本的。理解图像中的文本对于视觉语言任务来说，往往是重要的，例如发票识别整理、机器人理解环境等。而现有模型经常忽略这一信息。通过对图像OCR信号引入，可以提升视觉语言模型对图像的理解能力。论文基于大规模的图像文本数据集，设计了进行场景文本理解的预训练模型PreSTU。

【解决方案】

1. 引入一个OCR文本生成的预训练任务“SPLITOCR”：给定图像patches，随机将OCR文本分为两个部分，给定第一部分，令模型预测第二部分的OCR文本。

2. 使用Prompt learning的方式，输入各个任务所对应的提示词，使得模型能够更好地适配下游任务。论文中使用image captioning和VQA两个任务。

【总体框架】

秒客网

PreSTU：一个专门为场景文本理解而设计的简单预训练模型

【论文摘要】

【出发点】

【解决方案】

【总体框架】

相关文章