On Path to Multimodal Generalist: General-Level and General-Bench

发布时间:2026/5/27 12:18:32

On Path to Multimodal Generalist: General-Level and General-Bench 旨在解决当前多模态大语言模型MLLMs在迈向“通用人工智能”AGI过程中面临的评估标准缺失和能力定义模糊的问题。以下是对该论文内容的详细介绍1. 研究背景与动机从单模态到多模态的演进大型语言模型LLMs如ChatGPT和LLaMA已经在自然语言处理领域展现了通用智能的雏形。然而人类智能本质上是多模态的视觉、听觉、文本等协同工作。当前的多模态大模型MLLMs虽然发展迅速但大多仍依赖语言智能作为核心其他模态往往只是辅助尚未实现真正的多模态协同共生。现有评估的局限性现有的基准测试Benchmarks通常侧重于特定的任务如图像描述、视觉问答或单一的模态组合缺乏对模型“通用性”Generalist capability的全面评估。这导致难以衡量模型是否真正具备了跨模态、跨任务、跨格式的通用处理能力。目标论文提出需要一个新的评估框架能够全面衡量多模态通用智能的水平并推动下一代多模态基础模型的发展。2. 主要贡献论文提出了两个核心成果General-Level通用等级体系一个用于定义和分级多模态通用智能的理论框架。它不再仅仅关注单一任务的表现而是从技能的广度、模态的多样性、格式的复杂性以及能力的深度等多个维度来界定什么是真正的“多模态通用专家”。General-Bench通用基准测试基于上述理论构建的大规模多模态基准测试数据集。规模巨大包含超过700个任务和325,800个实例。覆盖广泛涵盖了更广泛的技能谱系、模态类型不仅限于图文还包括音频、视频等、数据格式和能力要求。综合性旨在测试模型在理解、生成、编辑甚至跨模态推理等方面的综合表现。3. 方法框架与评估体系理想智能模式论文指出理想的智能模式应当是所有模态和任务之间的协同增效Synergy而不是像当前大多数模型那样仅仅将非文本模态作为语言模型的输入插件即“语言智能主导”模式。评估维度General-Bench 的设计考虑了多个维度包括但不限于模态丰富度测试模型处理单一模态、双模态及多模态混合输入的能力。任务多样性从简单的感知任务到复杂的推理、创作和编辑任务。细粒度理解不仅测试粗粒度的场景识别还涉及像素级的视觉建模和细粒度的语义理解。对比分析论文通过该基准测试了对比了现有的100多个最先进SOTA的多模态大模型揭示了它们在不同能力维度上的排名和短板。4. 实验结果与发现通过对大量主流模型如GPT-4o, Gemini-1.5, Claude-3.5, Qwen2-VL, InternVL等的评估论文得出了一些关键发现能力差距明显尽管某些模型在特定任务上表现优异但在全面的通用性测试中没有任何模型能够完美覆盖所有维度的能力。“伪通用”现象许多被称为“通用”的模型实际上仍然严重依赖语言先验知识在处理非文本模态的深度理解或复杂跨模态生成时表现不佳。具体表现差异部分顶尖模型如GPT-4o系列、Gemini-1.5-Pro在图像理解、情感检测、图表分类等任务上表现较好但在幻觉检测、复杂图像编辑等方面仍有提升空间。一些开源模型如InternVL, Qwen2-VL在特定参数规模下展现了惊人的竞争力但在极端复杂任务上与闭源顶尖模型仍有差距。某些专用模型或早期多模态模型在General-Bench上的得分极低甚至在某些任务上得分为0突显了基准测试的区分度。5. 结论与展望通往AGI的挑战评估结果揭示了当前技术在实现真正的人工智能AGI方面仍面临巨大挑战。目前的模型距离实现全模态、全任务的无缝协同还有很长的路要走。基础设施价值作者期望General-Level和General-Bench能为未来的研究提供坚实的基础设施加速下一代多模态基础模型的研发。资源开放项目页面、排行榜和基准数据集已对外公开供社区使用和参考以促进该领域的透明度和进步。总结这篇论文不仅发布了一个超大规模的数据集更重要的是提出了一套重新定义“多模态通用智能”的标准。它指出了当前多模态模型“重语言、轻多模态协同”的弊端并通过详实的实验数据证明了现有模型距离真正的通用智能还有显著差距为后续研究指明了方向。

相关新闻