AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.01.25-2024.01.31

时间:2024-03-04 15:27:47

论文目录~

  • 1.PVLR: Prompt-driven Visual-Linguistic Representation Learning for Multi-Label Image Recognition
  • 2.Instruction-Guided Scene Text Recognition
  • 3.Image Anything: Towards Reasoning-coherent and Training-free Multi-modal Image Generation
  • 4.IGCN: Integrative Graph Convolutional Networks for Multi-modal Data
  • 5.MouSi: Poly-Visual-Expert Vision-Language Models
  • 6.Embracing Language Inclusivity and Diversity in CLIP through Continual Language Learning
  • 7.Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization
  • 8.Beyond Image-Text Matching: Verb Understanding in Multimodal Transformers Using Guided Masking
  • 9.InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model
  • 10.MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
  • 11.Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization
  • 12.M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining
  • 13.LCVO: An Efficient Pretraining-Free Framework for Visual Question Answering Grounding
  • 14.Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support

1.PVLR: Prompt-driven Visual-Linguistic Representation Learning for Multi-Label Image Recognition

标题:PVLR:用于多标签图像识别的提示驱动型视觉语言表征学习

author:Hao Tan, Zichang Tan, Jun Li, Jun Wan, Zhen Lei

publish:15 pages, 8 figures

date Time:2024-01-31

paper pdf:http://arxiv.org/pdf/2401.17881v1

摘要
多标签图像识别是计算机视觉领域的一项基本任务。最近,视觉语言模型在这一领域取得了显著进步。然而,以前的方法往往不能有效利用语言模型中的丰富知识,而是以单向的方式将标签语义纳入视觉特征。在本文中,我们提出了一个提示驱动的视觉语言表征学习(PVLR)框架,以更好地利用语言模态的能力。在 PVLR 中,我们首先引入了双重提示策略,包括知识感知提示(KAP)和语境感知提示(CAP)。KAP 利用固定提示捕捉所有标签的内在语义知识和关系,而 CAP 则利用可学习提示捕捉上下文感知标签语义和关系。随后,我们提出了一个交互与融合模块(IFM),用于交互和融合从 KAP 和 CAP 获取的表征。与之前工作中的单向融合不同,我们引入了双模式关注(DMA),实现了文本和视觉特征之间的双向互动,产生了上下文感知标签表征和语义相关的视觉表征,随后用于计算相似性并生成所有标签的最终预测。在 MS-COCO、Pascal VOC 2007 和 NUS-WIDE 等三个流行数据集上进行的广泛实验证明了 PVLR 的优越性。

2.Instruction-Guided Scene Text Recognition

标题:指令引导的场景文本识别

author:Yongkun Du, Zhineng Chen, Yuchen Su, Caiyan Jia, Yu-Gang Jiang

date Time:2024-01-31

paper pdf:http://arxiv.org/pdf/2401.17851v1

摘要
近来,多模态模型在视觉任务中表现出了吸引人的性能,因为在指令指导下进行的训练唤起了人们理解细粒度视觉内容的能力。然而,由于自然图像和文本图像之间的差距,目前的方法无法简单地应用于场景文本识别(STR)。在本文中,我们引入了一种新的范式,将场景文本识别(STR)表述为指令学习问题,并提出了指令引导的场景文本识别(IGTR),以实现有效的跨模态学习。IGTR 首先生成由<条件、问题、答案>组成的丰富多样的指令三元组,为细微的文本图像理解提供指导。然后,我们设计了一个具有专用跨模态特征融合模块和多任务答案头的架构,以有效融合回答问题所需的指令和图像特征。在这些设计的基础上,IGTR 通过理解字符属性实现了准确的文本识别。中英文基准实验表明,IGTR 的性能明显优于现有模型。此外,通过调整指令,IGTR 可以实现各种识别方案。这些方案包括零镜头预测,即根据不明确针对字符识别的指令训练模型,以及识别很少出现和形态相似的字符,而这些都是现有模型以前面临的挑战。

3.Image Anything: Towards Reasoning-coherent and Training-free Multi-modal Image Generation

标题:图像无所不能:实现推理连贯和免训练的多模态图像生成

author:Yuanhuiyi Lyu, Xu Zheng, Lin Wang

date Time:2024-01-31

paper pdf:http://arxiv.org/pdf/2401.17664v1

摘要
人类感知和理解力的多面性表明,当我们思考时,我们的身体可以自然地将任何感官(又称模式)组合起来,在大脑中形成一幅美丽的图画。例如,当我们看到一个猫舍,同时感知到猫的咕噜声时,我们的大脑就能构建出猫舍里的猫的画面。直观地说,生成式人工智能模型应具备人类的多功能性,能够高效、协作地从任何模式组合中生成图像。本文介绍的 ImgAny 是一种新颖的端到端多模态生成模型,它可以模仿人类推理并生成高质量的图像。我们的方法是首次尝试高效灵活地获取从语言、音频到视觉等七种模式的任意组合,包括图像、点云、热、深度和事件数据。我们的主要想法受到人类认知过程的启发,涉及在实体和属性层面整合和协调多种输入模式,而无需对不同模式进行特定调整。因此,我们的方法带来了两个新颖的免训练技术分支:1) 实体融合分支确保输入和输出之间的一致性。它通过我们专门构建的实体知识图谱,从多模态表征中提取实体特征;2)属性融合分支善于保留和处理属性。它通过我们提出的属性知识图谱,从不同的输入模式中有效地合并不同的属性。最后,实体和属性特征被自适应地融合为预先训练好的稳定扩散模型的条件输入,用于生成图像。在不同模态组合下进行的广泛实验证明了它在视觉内容创建方面的卓越能力。

4.IGCN: Integrative Graph Convolutional Networks for Multi-modal Data

标题:IGCN:面向多模态数据的整合图卷积网络

author:Cagri Ozdemir, Mohammad Al Olaimat, Yashu Vashishath, Serdar Bozdag, Alzheimer’s Disease Neuroimaging Initiative

date Time:2024-01-31

paper pdf:http://arxiv.org/pdf/2401.17612v2

摘要
图神经网络(GNN)的最新进展使得针对包含各种类型节点和边的多模态数据的图数据建模有了长足的发展。虽然最近针对网络结构数据开发了一些综合预测解决方案,但这些方法有一些限制。对于涉及多模态数据的节点分类任务,某些数据模态可能在预测某一类时表现更好,而其他数据模态则可能在预测另一类时表现出色。因此,要获得更好的学习表示,需要先进的计算方法对多模态数据进行综合分析。此外,现有的综合工具对其特定预测背后的原理缺乏全面、连贯的理解,因此不适合提高模型的可解释性。针对这些限制,我们推出了一种用于多模态数据网络的新型整合神经网络方法,名为整合图卷积网络(IGCN)。IGCN 从多种拓扑结构中学习节点嵌入,并通过为节点嵌入分配注意力系数,将多个节点嵌入融合为加权形式。我们提出的关注机制有助于确定每个样本中哪些类型的数据更受重视,从而预测某个类别。因此,IGCN 有可能在不同的节点分类任务中揭示之前未知的特征。我们在多个不同领域的数据集上对 IGCN 进行了基准测试,包括预测癌症亚型的多组学数据集和预测阿尔茨海默病进展的多模式临床数据集。实验结果表明,IGCN 的性能优于最先进的方法和基线方法,甚至不相上下。

5.MouSi: Poly-Visual-Expert Vision-Language Models

标题:MouSi:多视觉专家视觉语言模型

author:Xiaoran Fan, Tao Ji, Changhao Jiang, Shuo Li, Senjie Jin, Sirui Song, Junke Wang, Boyang Hong, Lu Chen, Guodong Zheng, Ming Zhang, Caishuang Huang, Rui Zheng, Zhiheng Xi, Yuhao Zhou, Shihan Dou, Junjie Ye, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang

date Time:2024-01-30

paper pdf:http://arxiv.org/pdf/2401.17221v1

摘要
目前的大型视觉语言模型(VLM)经常会遇到一些挑战,如单一视觉组件能力不足和视觉标记过长。这些问题会限制模型准确解释复杂视觉信息和过长上下文信息的有效性。应对这些挑战对于提高 VLM 的性能和适用性至关重要。本文提出使用集合专家技术来协同单个视觉编码器的能力,包括擅长图像-文本匹配、OCR、图像分割等技术的编码器。该技术引入了一个融合网络,以统一处理来自不同视觉专家的输出,同时弥合图像编码器与预训练 LLM 之间的差距。此外,我们还探索了不同的位置编码方案,以减轻冗长的图像特征序列造成的位置编码浪费,有效解决位置溢出和长度限制问题。例如,在我们的实施中,这种技术大大减少了 SAM 等模型中的位置占用,从大量的 4096 个减少到更高效、更易于管理的 64 个,甚至减少到 1 个。实验结果表明,与孤立的视觉编码器相比,拥有多名专家的 VLM 始终表现出卓越的性能,而且随着专家数量的增加,性能也得到了显著提升。我们已将本报告中使用的训练代码开源。所有这些资源都可以在我们的项目网站上找到。

6.Embracing Language Inclusivity and Diversity in CLIP through Continual Language Learning

标题:通过持续的语言学习,在 CLIP 中实现语言的包容性和多样性

author:Bang Yang, Yong Dai, Xuxin Cheng, Yaowei Li, Asif Raza, Yuexian Zou

publish:Accepted by AAAI’2024, 15 pages (with appendix), 7 figures, 10 tables

date Time:2024-01-30

paper pdf:http://arxiv.org/pdf/2401.17186v1

摘要
近年来,视觉语言预训练模型(VL-PTMs)推动了多模态研究的发展,但由于这些模型仅适用于英语等少数语言,限制了它们在更广泛领域的应用。为此,人们对通过联合学习设置开发多语言 VL 模型的兴趣与日俱增,但由于昂贵的成本和数据可用性,这种方法并不现实。在这项工作中,我们建议通过持续语言学习(CLL)来扩展 VL-PTM 的语言能力,在这种情况下,模型需要逐步更新其语言知识,而不会出现灾难性遗忘(CF)。我们的研究首先引入了一个被称为 CLL-CLIP 的模型,该模型建立在 CLIP 的基础上,CLIP 是一个已获得图像-英语文本配准的通用 VL-PTM 模型。具体来说,CLL-CLIP 包含一个可扩展的标记嵌入层,用于处理语言差异。它只对标记嵌入进行训练,以提高记忆稳定性,并在跨模态和跨语言目标下进行优化,以学习图像和多语言文本之间的配准。为了缓解协变量偏移和词性重叠带来的 CF 问题,我们进一步提出了一种新方法,即在初始化过程中确保所有标记嵌入的分布相同,并在训练过程中对标记嵌入学习进行正则化。我们基于 MSCOCO 和 XM3600 数据集构建了一个涵盖 36 种语言的 CLL 基准,然后评估了多语言图像-文本检索性能。广泛的实验验证了 CLL-CLIP 的有效性,并表明我们的方法可以提高 CLL-CLIP 的性能,例如,在 XM3600 上,文本到图像的平均 Recall@1 提高了 6.7%,并持续改进了各种最先进的方法。我们的代码和数据可在(url{https://github.com/yangbang18/CLFM}.

7.Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization

标题:即选即画:无需训练的文本到图像个性化语义指导

author:Henglei Lv, Jiayu Xiao, Liang Li, Qingming Huang

date Time:2024-01-30

paper pdf:http://arxiv.org/pdf/2401.16762v1

摘要
基于扩散的文本到图像个性化技术在生成用户在不同语境中指定的主题方面取得了巨大成功。尽管如此,现有的基于微调的方法仍然存在模型过拟合的问题,这极大地损害了生成多样性,尤其是在给定主题图像较少时。为此,我们提出了一种无需训练的语义引导方法–“挑选-绘制”(Pick-and-Draw),以提高个性化方法的身份一致性和生成多样性。我们的方法由两部分组成:外观挑选指导和布局绘制指导。就前者而言,我们根据参考图像的视觉特征构建一个外观调色板,在此挑选局部模式,生成具有一致身份的指定主体。至于布局绘制,我们参照 vanilla 扩散模型中的生成模板来勾勒主体轮廓,并继承先验的强图像,根据不同的文本条件合成不同的语境。所提出的方法可应用于任何个性化扩散模型,只需一张参考图像。定性和定量实验表明,"选取-绘制 "法能持续改善身份一致性和生成多样性,将主体保真度和图像-文本保真度之间的权衡推向一个新的帕累托前沿。

8.Beyond Image-Text Matching: Verb Understanding in Multimodal Transformers Using Guided Masking

标题:超越图像-文本匹配:利用引导屏蔽在多模态变换器中理解动词

author:Ivana Beňová, Jana Košecká, Michal Gregor, Martin Tamajka, Marcel Veselý, Marián Šimko

publish:9 pages of text, 11 pages total, 7 figures, 3 tables, preprint

date Time:2024-01-29

paper pdf:http://arxiv.org/pdf/2401.16575v1

摘要
主流的探测方法依赖于图像-文本匹配任务的零点性能,以获得对最近的多模态图像-语言转换器模型所学习的表征的更精细的理解。评估是在精心策划的数据集上进行的,重点是计数、关系、属性等。这项工作引入了另一种探测策略,称为引导屏蔽。所提出的方法利用遮蔽消减不同的模态,并评估模型高精度预测被遮蔽单词的能力。我们重点研究了将物体检测器获得的兴趣区域(ROI)特征作为输入标记的多模态模型。我们在 ViLBERT、LXMERT、UNITER 和 VisualBERT 上使用引导遮蔽来探究对动词的理解,结果表明这些模型能够高精度地预测正确的动词。这与之前通过图像-文本匹配探测技术得出的结论形成鲜明对比,后者在需要理解动词的情况下经常失败。所有实验的代码都将公开 https://github.com/ivana-13/guided_masking。

9.InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model

标题:InternLM-XComposer2:在视觉语言大型模型中掌握*形式的文本图像合成和理解能力

author:Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Xilin Wei, Songyang Zhang, Haodong Duan, Maosong Cao, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang

publish:Code and models are available at
https://github.com/InternLM/InternLM-XComposer

date Time:2024-01-29

paper pdf:http://arxiv.org/pdf/2401.16420v1

摘要
我们介绍的 InternLM-XComposer2 是一种先进的视觉语言模型,擅长*形式文本图像的合成和理解。该模型超越了传统的视觉语言理解能力,能从不同的输入(如大纲、详细的文本规范和参考图像)中巧妙地制作出交错的文本图像内容,从而实现高度可定制的内容创建。InternLM-XComposer2 提出了一种部分 LoRA(PLoRA)方法,它将额外的 LoRA 参数专门应用于图像标记,以保持预先训练的语言知识的完整性,在精确的视觉理解和具有文学天赋的文本创作之间取得平衡。实验结果表明,基于 InternLM2-7B 的 InternLM-XComposer2 在制作高质量的长文本多模态内容方面表现出色,在各种基准测试中的视觉语言理解性能出类拔萃,不仅明显优于现有的多模态模型,而且在某些评估中与 GPT-4V 和 Gemini Pro 不相上下,甚至有过之而无不及。这彰显了它在多模态理解领域的卓越能力。带有 7B 参数的 InternLM-XComposer2 模型系列可在 https://github.com/InternLM/InternLM-XComposer 网站上公开获取。

10.MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

标题:MoE-LaVA:大型视觉语言模型的专家混合物

author:Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Jinfa Huang, Junwu Zhang, Munan Ning, Li Yuan

publish:update table 5

date Time:2024-01-29

paper pdf:http://arxiv.org/pdf/2401.15947v3

摘要
最近的研究进展表明,扩展大型视觉语言模型(LVLM)能有效提高下游任务的性能。然而,现有的缩放方法会使计算中的每个标记的所有模型参数都处于激活状态,这就带来了巨大的训练和推断成本。在这项工作中,我们提出了一种简单而有效的 LVLMs 训练策略 MoE-Tuning。该策略创新性地解决了多模态稀疏性学习中常见的性能下降问题,从而构建出参数数量惊人但计算成本不变的稀疏模型。此外,我们还提出了基于 MoE 的稀疏 LVLM 架构 MoE-LaVA,该架构在部署过程中通过路由器只激活前 k 个专家,其余专家保持非活动状态。广泛的实验表明,MoE-LaVA 在各种视觉理解和物体幻觉基准测试中都有显著的表现。值得注意的是,MoE-LaVA 只需约 3B 个稀疏激活参数,就能在各种视觉理解数据集上实现与 LLaVA-1.5-7B 相媲美的性能,在物体幻觉基准中甚至超过了 LLaVA-1.5-13B。通过 MoE-LaVA,我们旨在建立稀疏 LVLM 的基准,并为未来研究开发更高效、更有效的多模态学习系统提供有价值的见解。代码发布于 https://github.com/PKU-YuanGroup/MoE-LLaVA。

11.Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization

标题:克服视觉语言模型微调的缺陷,实现 OOD 通用化

author:Yuhang Zang, Hanlin Goh, Josh Susskind, Chen Huang

publish:ICLR 2024

date Time:2024-01-29

paper pdf:http://arxiv.org/pdf/2401.15914v1

摘要
现有的视觉语言模型在各种视觉领域和任务中都表现出很强的泛化能力。然而,这些模型主要以封闭集的方式执行零镜头识别,因此在设计上难以处理开放域的视觉概念。最近有一些微调方法,如提示学习法,不仅研究了分布内样本(ID)和分布外样本(OOD)之间的区别,而且在 ID 和 OOD 准确率方面都有一些改进。在本文中,我们首先证明了视觉语言模型在经过足够长的微调后,如果没有适当的正则化,往往会过度拟合给定数据集中的已知类别,从而降低对未知类别的性能。随后,我们提出了一种新方法 OGEN 来解决这一问题,主要重点是改进微调模型的 OOD GENeralization。具体来说,我们引入了一种类条件特征生成器,只需使用任何未知类的类名就能合成 OOD 特征。这种合成特征将提供关于未知类的有用知识,并在联合优化时帮助规范 ID 和 OOD 数据之间的决策边界。同样重要的是,我们的自适应自馏分机制可以在联合优化过程中对特征生成模型进行正则化,即在模型状态之间自适应地转移知识,以进一步防止过拟合。实验验证了我们的方法在不同环境下都能令人信服地提高 OOD 的泛化性能。

12.M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining

标题:M2 编码器:通过大规模高效预训练促进双语图像-文本理解

author:Qingpei Guo, Furong Xu, Hanxiao Zhang, Wang Ren, Ziping Ma, Lin Ju, Jian Wang, Jingdong Chen, Ming Yang

date Time:2024-01-29

paper pdf:http://arxiv.org/pdf/2401.15896v2

摘要
像 CLIP 这样的视觉语言基础模型在人工智能领域掀起了一场革命。然而,由于大规模预训练数据集相对缺乏,支持多语言(如中英文)的 VLM 模型发展滞后。为此,我们引入了一个全面的双语(中英文)数据集 BM-6B,其中包含超过 60 亿个图像-文本对,旨在增强多模态基础模型,使其能够很好地理解两种语言的图像。为了处理如此大规模的数据集,我们提出了一种新颖的图像-文本对比损失计算分组聚合方法,该方法大大降低了通信开销和 GPU 内存需求,使训练速度提高了 60%。我们在 BM-6B 上预先训练了一系列具有更强细粒度理解能力的双语图像-文本基础模型,这些模型被称为 M 2 M^2 M2-编码器(发音为 “M-Square”),在多模态检索和分类任务中为两种语言设定了新的基准。值得注意的是,我们最大的 M 2 M^2 M2-Encoder-10B模型在ImageNet和ImageNet-CN上分别取得了88.5%和80.7%的top-1准确率,超过之前报道的SoTA方法2.2%和21.1%。 M 2 M^2 M2-Encoder 系列是迄今为止最全面的双语图像-文本基础模型之一,因此我们将其提供给研究界,供其进一步探索和开发。

13.LCVO: An Efficient Pretraining-Free Framework for Visual Question Answering Grounding

标题:LCVO:视觉问题解答基础的高效免预训练框架

author:Yuhan Chen, Lumei Su, Lihua Chen, Zhiwei Lin

publish:21 pages,9 figures

date Time:2024-01-29

paper pdf:http://arxiv.org/pdf/2401.15842v1

摘要
本文针对视觉语言多模态领域中的视觉问题解答(VQA)接地任务提出了 LCVO 模块化方法。这种方法依靠一个冻结的大语言模型(LLM)作为现成的 VQA 模型和现成的开放词汇对象检测(OVD)模型之间的中间媒介,其中 LLM 根据设计的提示在两个模块之间转换和传递文本信息。LCVO 建立了一个即插即用的集成框架,无需任何预培训过程。该框架可在低计算资源条件下用于 VQA 接地任务。该框架内的模块化模型允许应用各种最先进的预训练模型,展现出与时俱进的巨大潜力。在有限的计算和内存资源条件下进行了实验实施,评估了拟议方法在 GQA、CLEVR 和 VizWiz-VQA-Grounding 等基准数据集上的性能。与基准方法的对比分析表明了 LCVO 强大的竞争力。

14.Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support

标题:Taiyi-Diffusion-XL:利用大型视觉语言模型支持推进双语文本到图像生成

author:Xiaojun Wu, Dixiang Zhang, Ruyi Gan, Junyu Lu, Ziwei Wu, Renliang Sun, Jiaxing Zhang, Pingjian Zhang, Yan Song

publish:Taiyi-Diffusion-XL Tech Report

date Time:2024-01-26

paper pdf:http://arxiv.org/pdf/2401.14688v1

摘要
文本到图像模型的最新进展极大地增强了图像生成能力,但开源模型在双语或中文语言支持方面仍存在明显差距。为了满足这一需求,我们提出了 Taiyi-Diffusion-XL 模型,它是一种新的中英文双语文本到图像模型,通过双语持续预训练过程扩展了 CLIP 和 Stable-Diffusion-XL 的功能。这种方法包括通过将最常用的汉字整合到 CLIP 的标记化器和嵌入层来有效扩展词汇量,同时进行绝对位置编码扩展。此外,我们还通过大型视觉语言模型来丰富文本提示,从而获得更好的图片说明并拥有更高的视觉质量。这些增强功能随后被应用到下游的文本到图像模型中。我们的实证结果表明,所开发的 CLIP 模型在双语图像-文本检索方面表现出色,此外,Taiyi-Diffusion-XL 的双语图像生成能力也超过了以前的模型。这项研究促成了 Taiyi-Diffusion-XL 模型的开发和开源,代表了图像生成领域,尤其是中文应用领域的显著进步。这一贡献在满足多模态研究对更多样化语言支持的需求方面向前迈进了一步。该模型和演示可在https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B上公开获取,以促进该领域的进一步研究与合作。