
这项由新加坡国立大学研究团队主导的研究以预印本形式于2026年5月14日发布在arXiv平台论文编号为arXiv:2605.14607题为《ViMU: Benchmarking Video Metaphorical Understanding》。研究聚焦一个听起来颇为哲学的问题当一台AI模型盯着一段视频看完它真的看懂了吗每个人都有过这样的体验——看到一段别人发来的短视频里面一个人在舞台上跳舞但一旦留意到背景音乐是德国军歌、画面角落贴着一只戴帽子的柴犬表情包整件事的含义就发生了根本性转变从一段普通舞台表演变成了一个带有政治冒犯意味的隐晦段子。这种表面上是A实际上说的是B的视频在当今互联网上无处不在——表情包视频、嘲讽剪辑、网络梗、社会批评类短视频几乎都在用这种方式表达。然而当前绝大多数的AI视频理解模型更像是一个只认字面意思的学生能告诉你画面里有一个女孩在跳舞背景有几个人在看却无法感知这段视频真正想说什么。研究团队将这种能力的缺失称为表层理解与深层潜台词理解之间的鸿沟并由此构建了一个全新的基准测试数据集命名为ViMU即视频隐喻理解Video Metaphorical Understanding。这是学术界首个专门用来评估AI模型在视频潜台词理解方面能力的系统性基准。---一、为什么看懂一段视频比你以为的难得多表面上视频理解这件事似乎已经被AI做得相当不错了。识别画面里的物体没问题。判断视频里发生了什么动作也行。搞清楚时间顺序基本可以。但研究团队指出这些能力加在一起仍然只能让模型理解发生了什么而无法理解这意味着什么。以论文中给出的一个真实例子为例一段视频的画面内容是一个卡通场景牛顿坐在树下读书旁边有个角色高举苹果随后镜头切换到一个人在田野里张开双臂奔跑活像一只在飞的鸟。配乐是汉斯·季默创作的《星际穿越》原声曲Cornfield Chase。如果只看画面可能会觉得这是一段莫名其妙的视频。但真正的笑点在于苹果没有落在牛顿头上——换句话说牛顿没有发现万有引力定律人类因此没有搞清楚重力是什么所以那个人只能像傻瓜一样学鸟飞。这是一个通过反事实逻辑构建的荒诞段子笑点完全依赖于观众提前知道苹果砸牛顿这个科学史掌故以及能读出视频在用什么样的荒诞逻辑建立因果联系。对人类来说这种解读几乎是瞬间完成的因为我们有足够的文化背景知识和社会经验。但对AI来说它需要同时完成好几件事识别牛顿这个形象及其文化含义理解苹果没有落下的反事实意义感知配乐带来的情绪铺垫还要将这些零散信号综合成一个连贯的解读。这种多层次的综合判断正是当前AI模型普遍欠缺的能力。正是因为这种能力的缺失在现有研究中没有被系统性地测量和记录研究团队决定从头搭建一套专门的测试框架。---二、这套测试是怎么设计出来的构建ViMU的过程与其说是在出题不如说更像是在筛选和锻造。研究团队从YouTube、Bilibili和TikTok等平台上收集了超过500段视频这些视频的共同特征是表面内容和实际含义之间存在显著落差且这种落差依赖于文化背景、社会经验或特定语境才能被识别。整个构建流程被设计成一个多阶段的流水线。第一步是从原始视频中提取多模态证据也就是均匀采样出若干帧画面同时提取音频转录文字形成一份对每段视频的可观测证据包。第二步研究团队使用一个高级语言模型具体是GPT-5.4对每段视频进行语义标注让模型区分表面内容和潜在含义并将含义分解成多个维度——用了什么修辞手法、传达了什么社会态度。完成标注后进入第三步针对每段视频生成对应的问题和参考答案。这里有一个核心约束也是ViMU区别于其他类似测试集的最重要设计原则——所有问题必须是无提示的hint-free。什么叫无提示就是问题本身不能暗示答案的方向。比如如果视频里那个女孩的动作像在模仿纳粹式敬礼你不能直接问这个动作是在模仿什么政治符号因为这种问法已经把关键线索藏在问题里了。正确的问法应该是这段视频整体上想表达什么让模型自己去推断。这个无提示设计极大地增加了任务难度也更贴近真实情境当你在网上刷到一段视频时没有任何人预先告诉你注意这个视频有隐含含义你必须凭借自己的感知和判断来理解它。生成初版问答对之后流程进入第四步迭代验证与修改。另一个语言模型会检查每个问题是否真的无法仅靠表面内容回答是否确实需要理解隐含含义难度是否适当金标答案是否与视频的实际意图一致。如果问题不合格会被打回重写最多允许三轮修改修改后仍不合格的则直接丢弃。整个数据集的最终质量还经过了五位人类专家的审核把关。经过这套严苛流程最终保留下来了588段视频对应2352个问题分布在四项任务之中。---三、四项考题分别考察不同层次的理解力研究团队将视频潜台词理解拆解成四个维度每个维度对应一类具体问题像是一组从不同角度检视同一件雕塑的灯光。第一项任务叫开放性解读是四项任务里最难的也是最接近人类真实体验的。给模型看一段视频只问一个问题这段视频整体上想表达什么没有选项可以选完全考察模型自主生成解读的能力。由于是开放性问答评分方式也比较特殊需要再用另一个AI模型来充当评卷老师根据一套打分标准来判断模型的回答是否捕捉到了视频的核心意图、是否识别出了关键的修辞信号、是否准确理解了社会含义同时还会扣除编造内容和只说表面内容而没看出深意两项罚分满分9分。第二项任务叫修辞机制识别是一道五选多的选择题。视频的隐含含义是通过什么方式构建的研究团队将修辞手法归纳成五个大类直接字面表达、对立/反常包括反转、荒诞、前后矛盾等、态度/语气类修辞包括讽刺、反语、面无表情式幽默、嘲讽等、放大/风格化包括夸张、模仿等、以及隐晦/编码社会框架包括影射、刻板印象调用、暗语等。模型需要从这五个选项中勾选所有适用的类别。第三项任务叫社会价值信号识别同样是五选多但考察的是视频传达了什么社会态度。五大类分别是中性/无社会信号、情感态度、社会评价/贬低、规范与价值框架、以及身份/意识形态信号。举个例子一段嘲讽某个群体的视频不仅可能用了对立/反常这种修辞手法还可能同时带有社会贬低和歧视或偏见的社会价值信号。第四项任务叫证据定位问的是你的理解依据是什么。每段视频的理解可能依赖于五类证据画面帧、可见文字比如字幕或贴在视频上的文字、剪辑方式比如特定的剪辑节奏或蒙太奇手法、音频转录即对话或歌词内容、以及音频语气配乐或说话者的情绪语气。模型需要正确勾选出支撑其解读的那些证据来源。---四、数据集里装了什么样的视频为了让测试足够全面研究团队在数据集设计上刻意追求多样性从两个维度来衡量——修辞机制的分布和社会价值信号的分布。从修辞机制来看数据集里占比最高的是对比约20%其次是面无表情式幽默约16%、影射约13%、夸张约11%、荒诞约10.5%、引诱反转约8.5%、嘲讽约6%、模仿/戏仿约6%以及占比较低的纯字面、反语、刻板印象调用、讽刺、角色反转等类型。从社会价值信号来看约32%的视频实际上不携带明显的社会价值信号剩余视频中性暗示约21%、羞辱约15%、负面情绪约11%、蔑视约4.4%、违反社会规范约3.6%、歧视或偏见约3.2%等依次出现。在证据来源的分布上视频画面帧是最主要的证据来源约占28%其次是可见文字约26%、剪辑方式约24%、音频转录约17%以及音频语气约6%。这个分布清楚地说明了理解这类视频为什么必须综合多种信息来源单靠画面是不够的。在视频所指向的目标方面约31%的视频指向特定个人约29%没有明确指向目标约16%指向自我比如自嘲类内容其余则涵盖了制度机构、种族族裔群体、国籍群体、外貌体型、性别群体、阶级或职业、性取向相关群体、年龄群体等十几种社会分类。---五、测试了哪些AI模型成绩怎么样研究团队用ViMU测试了16个当前主流的多模态大语言模型涵盖开源和闭源两类。开源模型中包括Ministral-8B、Ministral-14B、Gemma-3-4B、Gemma-3-27B、Qwen3-VL-32B和Qwen3.5-27B闭源模型中包括Claude-3-Haiku、GLM-4.5v、Grok-4.1-Fast、Gemini-3-Flash-Preview、Mimo-V2-Omni、Seed-2.0-Lite、o4-mini、GPT-4.1-nano、GPT-5.2和GPT-5.4-mini。所有模型都在零样本条件下接受测试即没有任何练习题预热直接上场作答。成绩分布呈现出一个令人深思的格局。在开放性解读任务上GPT-5.2表现最好得分约73%这个成绩听起来还不错。然而当同一批模型被要求精确识别修辞机制时GPT-5.2的得分骤降到约17%在社会价值信号识别上它也只有约21%。表现最好的开放性解读能力并没有自动转化为更精准的结构化理解。反过来在修辞机制和社会价值信号这两项任务上表现相对较好的是Grok-4.1-Fast约35%和29%、Gemini-3-Flash-Preview约34%和28%以及o4-mini约33%和30%但这些模型在开放性解读上的得分又不如GPT-5.2。换句话说能说清楚视频在讲什么和能精确归类用了什么修辞是两种不同的能力在不同模型身上呈现出截然不同的优劣组合。从综合平均分来看所有16个模型的全任务平均分都低于50%绝大多数在35%到47%之间。其中表现最好的是o4-mini46.91%和Grok-4.1-Fast46.28%开源模型中Qwen3.5-27B45.91%表现最为出色而表现最差的则是GPT-4.1-nano20.94%和Claude-3-Haiku22.90%。值得一提的是闭源模型并不总是优于开源模型Qwen3.5-27B就超过了Claude-3-Haiku和GPT-4.1-nano这打破了花钱买API就更强的直觉预期。---六、模型出错的方式揭示了什么研究团队并不满足于只看总分还深入拆解了模型是怎么错的这些分析提供了比分数本身更丰富的信息。在证据定位任务上有一个观察特别有意思。研究团队发现绝大多数模型倾向于保守——也就是说它们预测的证据来源数量比实际正确答案要少。这种保守性有时是无害的但过于保守的模型也就是几乎不愿意勾选任何选项的那些往往也是整体表现最差的。进一步分析错误类型时模型的错误大多是漏选——要么完全没选到正确答案要么只对了一部分而不是多选了错误的答案。这说明模型的主要问题不是乱猜而是看不全——它们能感知到一两个明显的证据来源却常常忽略了更隐蔽的编辑手法或音频信号。具体来看证据类型的遗漏模式与编辑方式相关的证据比如特定的剪辑节奏、蒙太奇技巧是被遗漏最多的而音频相关的证据相对来说被遗漏得较少。这说明当前模型对视频是怎么剪的这个层面的信号最为迟钝。在修辞机制识别任务上研究团队发现了一个系统性的偏向几乎所有模型都倾向于过度勾选A字面/直接这个选项同时严重低估E隐晦/编码社会框架这个选项。这种偏向反映了模型的一种安全默认心理——面对难以判断的内容模型倾向于选择最保险、最中性的解释而不是深入探究其社会编码含义。在社会价值信号识别任务上类似的偏向表现为几乎所有模型都大量过度勾选B情感态度而低估E身份/意识形态信号。宽泛的情绪感知成为了模型的万能糊弄答案而真正需要识别特定社会群体或政治立场信号的能力则普遍缺失。通过对模型错误特征进行主成分分析一种把复杂数据压缩成可视化图形的统计方法研究团队发现不同模型家族之间存在明显的行为聚类——来自同一公司或同一研究团队的模型在犯错模式上高度相似这说明不同AI系统在理解视频含义时有各自独特的盲点这些盲点往往来自于它们在训练时共享的数据偏好和架构设计。---七、给AI出卷子然后给它解答加提示有用吗为了进一步探究模型的局限性来自哪里研究团队还做了一个对比实验在让模型回答修辞机制和社会价值信号问题时分别测试不给任何解释和附上每个选项的详细定义说明两种情况看额外的分类定义能否帮助模型选得更准。结果是有用但有限。加了定义说明之后部分模型在局部选项上的预测确实有所调整但整体结构性偏向并没有得到根本改变——模型对那些默认选项的偏好依然存在对隐晦社会信号的系统性低估也没有消失。也就是说这类问题不是告诉模型定义就能解决的问题而是模型在更深层次上缺乏对这类含义的感知能力。---八、这项研究的意义与局限ViMU最核心的贡献在于它填补了视频理解评估领域中一个被长期忽视的空白。以往的测试集要么考察物体识别和动作理解要么考察时序逻辑要么只聚焦于幽默理解或图片梗但图片梗无法捕捉音频、剪辑节奏、时序等视频特有的信号。ViMU是第一个同时满足以下几个条件的测试集聚焦于视频潜台词而非字面内容、覆盖多种修辞机制和社会价值信号、要求无提示推断模型不能从问题中获取答案方向、包含多模态证据画面、音频、文字、剪辑、同时提供开放性和选择性问答两种评估形式。不过研究团队也坦率承认了这套测试集的局限性。潜台词的理解在本质上是主观的不同文化背景和社会经验的人对同一段视频的解读可能差异极大标注过程中残留的偏见和模糊性是无法完全消除的。此外数据集中包含了一些敏感甚至令人不适的内容——这是测试AI能否理解社会隐含意义这件事的代价因为现实中的此类视频本身就可能涉及冒犯性表达。研究团队明确表示ViMU仅设计用于评估不应被用作训练数据。---说到底这项研究在提醒我们一件事让AI读懂一段视频和让AI真正理解一段视频是两件截然不同的事。前者是技术上已经接近成熟的能力后者则触及了一个更根本的问题——AI能否像人类一样在文化语境和社会经验的支撑下感知那些没有说出口的含义。当前最强的商业AI模型在这件事上平均只做对了不到一半。这不是说这些模型很差恰恰相反它们在许多任务上已经表现得相当出色。但ViMU的价值就在于它精确地划出了一条线清晰地告诉我们这条线的另一边还有很长的路要走。对于真正想让AI参与内容审核、文化分析、舆情理解等现实任务的应用场景来说这条线的位置至关重要。对于普通读者来说这项研究最直接的含义可能是下次你看到一段AI生成的视频解读别想当然地认为它懂了。它描述的可能只是画面本身而不是视频真正想说的那件事。感兴趣的读者可以通过arXiv编号2605.14607查阅完整论文进一步了解测试设计和实验细节。---QAQ1ViMU测试集和普通视频理解测试集有什么不同A普通视频理解测试集主要考察模型能否识别画面里的物体、动作和时间顺序而ViMU专门测试模型能否理解视频表面内容之外的隐含含义比如讽刺、影射、社会批评等。ViMU还要求问题无提示即问题本身不能暗示答案方向更贴近真实观看体验。Q2ViMU基准测试中表现最好的AI模型是哪个A在综合全部四项任务的平均分上o4-mini以46.91%的成绩排名第一其次是Grok-4.1-Fast46.28%和开源模型Qwen3.5-27B45.91%。在开放性解读单项任务上GPT-5.2得分最高约为73%但它在修辞机制识别上仅有约17%说明不同能力之间存在明显的不平衡。Q3AI模型在ViMU上最常犯的错误是什么A模型最常见的错误模式是选择最安全的默认答案。在识别修辞机制时模型倾向于过度勾选字面/直接这个最保守的选项在社会价值信号识别上则倾向于依赖宽泛的情感态度作为万能答案而不能精准识别更隐晦的社会编码信号比如身份认同或意识形态暗示。