一、结论写在前面
论文对MM-LLM进行了全面调研,重点关注近期的进展。首先,将模型架构分为五个组件,详细概述了通用的设计公式和训练流程。其次,介绍了各种SOTA MM-LLM,每一个都以其特定的公式为特色。还阐明了它们在各种MM基准上的能力,并展望了这个快速发展的领域的未来发展。
![图片[1]-【LLM】 MM-LLM:多模态大语言模型的最新进展-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/07/1719781266897_0.png)
图1:MM-LLM的时间线
二、论文的简单介绍
多模态(MultiModal,MM)预训练研究在近年来取得了重大进展,在一系列下游任务中不断推进性能边界。然而,随着模型和数据集规模的不断扩大,传统的MM模型会产生巨大的计算成本,特别是从头开始训练。认识到MM研究处于各种模式的交汇处,一个合乎逻辑的方法是利用现成的预训练好的单模基础模型,特别强调强大的大语言模型(LLM)。这一策略旨在降低计算费用,提高MM预训练的效果,导致了一个新领域的出现:MM-LLM。
MM-LLM利用LLM作为认知动力,赋能各种MM任务。LLM贡献了强大的语言生成、zero-shot迁移能力和上下文学习(In-Context Learning,ICL)等理想特性。同时,其他模式中的基础模型提供高质量的表示。考虑到不同模式的基础模型都是单独预训练的,MM-LLM面临的核心挑战是如何有效地将LLM与其他模式中的模型连接起来,以实现协同推理。这一领域的主要关注点一直是通过MM预训练(PT)+ MM指令调优(IT)流程来优化模式之间的对齐并与人类意图对齐。
在GPT-4(Vision)和Gemini)的首次亮相展示了MM理解和生成能力后,MMLLM的研究热情被激发。最初的研究主要关注MM内容理解和文本生成,如Flamingo、BLIP-2、Kosmos-1、LLaVA/LLaVA-1.5、MiniGPT4、MultiModal-GPT、VideoChat、VideoLLaMA、IDEFICS、Fuyu-8B和QwenAudio。为了实现能够进行MM输入和输出的MM-LLM,一些研究者还额外探索了特定模式的生成,例如Kosmos2和MiniGPT-5引入了图像生成,SpeechGPT引入了语音生成。
最近的研究努力致力于模拟人类般的任意模式间转换,为通用人工智能指明了道路。一些工作旨在将LLM与外部工具融合,以实现接近“任意转换”的MM理解和生成,例如Visual-ChatGPT、ViperGPT、MMREACT、HuggingGPT和AudioGPT。相反,为了减轻级联系统中误差的传播,诸如NExT-GPT和CoDi-2等计划已经开发出了端到端的任意模式MM-LLM。MM-LLM的时间线如图1所示。
论文展示了一个全面调研,旨在促进MM-LLM的进一步研究。为了让读者全面理解MM-LLM,首先从模型架构和训练流程勾勒出一般的设计公式。将一般的模型架构分解为五个组件:模态编码器、输入投影仪、LLM骨干、输出投影仪和模态生成器。
![图片[2]-【LLM】 MM-LLM:多模态大语言模型的最新进展-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/07/1719781266897_1.png)
图2:MM-LLM的一般模型架构及每个组件的实现选择
训练流程阐明了如何增强仅限文本的预训练LLM以支持MM输入或输出,主要包含两个阶段:
还总结了主流的MM PT和MM IT数据集:
![图片[3]-【LLM】 MM-LLM:多模态大语言模型的最新进展-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/07/1719781266897_2.png)
![图片[4]-【LLM】 MM-LLM:多模态大语言模型的最新进展-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/07/1719781266897_3.png)
![图片[5]-【LLM】 MM-LLM:多模态大语言模型的最新进展-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/07/1719781266897_4.png)
表1:26个主流MM-LLM的汇总。I→O:输入到输出模式,I:图像,V:视频,A:音频,3D:点云,T:文本。在模态编码器中,“-L”表示大型,“-G”表示巨型,“/14”表示补丁大小为14,“@224”表示图像分辨率为224×224。#.PT和#.IT分别代表MM PT和MM IT期间的数据集规模。†包括不公开的内部数据
![图片[6]-【LLM】 MM-LLM:多模态大语言模型的最新进展-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/07/1719781266897_5.png)
表2:主流MM-LLM在18个VL基准上的比较。红色表示最高结果,蓝色表示第二高结果。‡表示ShareGPT4V(Chen等,2023e)在基准或原论文中遗漏的重新实现的测试结果。数据集的训练图像在训练期间被观察到*
未来方向
论文从以下几个方面探索MM-LLM的有前景的未来方向:
更强大的模型
可以从以下四个关键途径增强MM-LLM的力量:
(1)扩展模态:当前的MM-LLM通常支持以下模态:图像、视频、音频、3D和文本。然而,现实世界涉及更广泛的模态。将MM-LLM扩展到容纳更多模态(例如网页、热力图和图表),将提高模型的通用性,使其更加普适。
(2)多样化LLM:结合各种类型和大小的LLM为从业者提供根据其特定要求选择最合适的LLM的灵活性。
(3)改进MM IT数据集质量:当前的MM IT数据集仍有很大的改进和扩展空间。扩大指令范围可以增强MM-LLM理解和执行用户命令的效果。
(4)加强MM生成能力:当前大多数MM-LLM主要面向MM理解。尽管一些模型已经集成了MM生成能力,但生成响应的质量可能受LDM能力的限制。探索集成检索式方法(Asai等,2023)在补充生成过程方面具有巨大的前景,可能提高模型的整体性能。
更具挑战性的基准
鉴于许多数据集在一定程度上已经出现在PT或IT集中,现有的基准可能无法充分挑战MM-LLM的能力,这意味着模型可能已经在训练中学习了这些任务。此外,当前的基准主要集中在VL子领域。因此,构建一个更具挑战性、更大规模的基准是MM-LLM发展的关键,该基准应包含更多的模式,并使用统一的评估标准。同时,基准可以定制为评估MM-LLM在实际应用中的熟练程度。例如,引入GOATBench(Lin等,2024)旨在评估各种MM-LLM识别和响应meme中存在的微妙的社交滥用方面的能力。
移动/轻量级部署
为了在资源受限的平台上部署MM-LLM并实现最佳性能,如低功耗移动和物联网设备,轻量级实现至关重要。这一领域的一个显着进步是MobileVLM(Chu等,2023a)。这种方法战略性地降低了LLaMA的规模,允许无缝的现成部署。MobileVLM进一步引入了一个轻量级下采样投影仪,包含不到2000万个参数,有助于提高计算速度。尽管如此,这一领域还需要进一步探索以实现进一步发展。
具身智能(Embodied Intelligence)
具身智能旨在通过有效理解环境、识别相关对象、评估其空间关系并制定全面的任务计划来模拟人类对周围环境的感知和交互。具身AI任务(如具身规划、具身视觉问答和具身控制)使机器人能够利用实时观察自主实施扩展计划。这一领域的一些典型工作是PaLM-E(Driess等,2023)和EmbodiedGPT(Mu等,2023)。PaLM-E通过训练MM-LLM引入了一个多具身代理。除了仅作为具身决策者之外,PaLM-E还展示了处理一般VL任务的熟练程度。EmbodiedGPT引入了一种经济有效的方法,其特征在于CoT方法,增强了具身代理与现实世界互动的能力,并建立了连接高层计划与低层控制的闭环。虽然基于MM-LLM的具身智能在与机器人的集成方面取得了进展,但需要进一步的探索来增强机器人的自主性。
持续IT
在实际应用中,期望MM-LLM能够适应新的MM任务,以支持额外的功能。然而,当前的MM-LLM仍然是静态的,无法适应不断出现的新要求。因此,需要一种方法使模型足够灵活,可以高效持续利用新出现的数据,同时避免重新训练MM-LLM的巨大成本。这与持续学习的原则一致,在持续学习中,模型被设计为类似人类学习那样渐进地学习新任务。持续IT旨在在保持原MM IT阶段学习任务的卓越表现的同时,持续微调MM-LLM以适应新的MM任务。它引入了两个主要挑战:(1)灾难性遗忘,即模型在学习新任务时忘记以前的知识;(2)负向前移传递,指出当学习新任务时未见任务的性能下降。最近,He等建立了一个基准,以推动MM-LLM的持续IT发展。尽管取得了这些进步,但在开发更好的方法来解决灾难性遗忘和负向前移传递的挑战方面,仍有很大的改进空间。
论文标题:MM-LLMs: Recent Advances in MultiModal Large Language Models
论文链接:







