「百万级」视频推理数据集!30+顶尖高校联合发布

发布时间:2026/5/27 23:00:04

「百万级」视频推理数据集!30+顶尖高校联合发布 AI视频生成已能「画得像」但不会「想得对」。VBVR推出百万级视频推理数据集首次系统评测模型对空间、物理、逻辑和抽象的推理能力发现顶尖模型通过率仅68%暴露其缺乏真实认知推动视频AI从「视觉模仿」迈向「智能推理」。近年来视频生成模型在视觉质量、时序一致性和文本对齐等方面取得了显著进展从最初的模糊光影到如今足以乱真的好莱坞级画面「视觉质量」的竞争已趋于白热化。然而一个被长期忽视的深层命题逐渐浮出水面视频模型真的「理解」它所创造的世界吗现有研究和评测体系更多聚焦于「好不好看」「像不像」而视频中真正与智能相关的能力——对空间、物理、逻辑、因果与抽象规则的推理——却长期缺乏系统性刻画。一个核心瓶颈在于视频推理领域至今缺少一个规模足够大、任务覆盖足够全面、且评测可验证、可复现的数据集与基准。现有工作往往停留在零散demo或小规模benchmark 上难以研究规模效应与泛化行为任务定义高度碎片化空间、物理、逻辑、抽象等能力混杂在一起缺乏统一的「推理能力定义」训练数据与评测任务严重脱节模型更像是在「生成得更稳」而非「想得更对」。近日来自NTU、CMU、斯坦福、UCB等32所高校的研究员联合提出VBVRVery Big Video Reasoning并不是一个单点 benchmark而是一套一次性补齐所有短板的面向视频推理研究的完整基础设施。论文链接https://arxiv.org/pdf/2602.20159v2视频链接https://www.youtube.com/watch?visnyV_BDgBE前所未有的超大规模研究人员构建了包含200 个精心策划的推理任务和超过 100 万个视频剪辑的 VBVR-Dataset。其规模比现有同类数据集大出约1000 倍为系统研究视频推理的算法革新提供了坚实的土壤。六大核心认知支柱基于人类认知架构理论设计任务研究人员将推理能力细分为感知、空间性、物理规律、逻辑与符号、抽象、以及变换。完全规则化、可复现的评测标准VBVR-Bench研究人员摒弃了模糊的「LLM-as-a-judge」引入了可验证的规则评分器。这种评估方式与人类判断高度一致确保了结果的科学性和稳定性。超强baseline通过在Wan2.2 I2V 14B上的规模实验去回答「数据扩大会不会带来泛化」的核心问题图片1VBVR 概览。 左侧网格展示了覆盖认知架构的代表性任务并根据其对应能力进行颜色编码空间性Spatiality、变换Transformation、知识Knowledge、抽象Abstraction和感知Perception。在网格中心展示了 VBVR2.015M 样本 与其他 九个数据集总和12.8K 样本 的规模对比圆的大小按比例绘制。右上在域内in-domain和域外out-of-domain评估中的扩展行为scaling behavior。右下基于五种认知能力的基准性能表现。图片2VBVR-Dataset 的示例任务实例按五种认知能力进行组织。每个序列展示了为得到有效解所需的结构化推理过程。这些任务通过生成器实现支持可扩展的实例变化。在规模层面VBVR-Dataset 的数字很醒目200 个任务、2,015,000 张图像、1,007,500 个视频片段约为既有同类资源的三个数量级。本文还特别设置了公开任务与隐藏任务用于后续排行榜评估避免基准被过度「刷榜化」。研究团队根据人类认知理论将视频推理能力划分为六大核心支柱Pillars涵盖 200 个精心设计的任务。同时这个数字随着社区的不断贡献还在增长每一类都对应可参数化的任务生成器能够持续采样新实例感知 (Perception)测试边缘检测、颜色和形状感知及辨别能力。空间性 (Spatiality)考察位置表征、几何关系及导航能力如迷宫寻路。变换 (Transformation)涉及心理旋转、物体状态演变等精神表征的操纵。知识 (Knowledge)关于世界的命题性内容可能来源于经验学习也可能是先天赋予的。抽象 (Abstraction)考察从特定经验中提取通用知识的能力。VBVR-Bench基于规则的系统可验证评分VBVR-Bench 的核心主张是视频推理评测应从「模型当裁判」LLM-as-a-Judge的主观评估范式转向基于规则的可验证评分机制。在该基准中每一个测试任务都配套明确的任务规则与加权评价指标评估维度涵盖目标识别、路径合法性、执行效率、时序一致性以及逻辑有效性等关键因素。这种设计带来的首要优势是完全可复现对于同一模型输出在相同规则体系下应始终得到稳定一致的评分结果不会因评审模型的温度设置、提示词差异或上下文变化而产生波动。深度诊断能力它不仅能给模型打分还能通过分析五大认知支柱感知、空间知识、变换、抽象下的细分表现揭示出模型在不同认知能力之间的相互依赖与权衡。研究者能够准确定位模型失败的具体原因例如是目标识别错误、路径规划违反约束如穿越障碍还是由于生成视频抖动而导致的任务完成失败。为了验证这种自动化规则评分是否靠谱研究团队进行了人类偏好对齐实验。结果显示VBVR-Bench 的自动化评分与人类判断的 Spearman 相关系数超过了0.9证明了规则评分的权威性。图片3人类偏好对齐分析VBVR-Bench 自动胜率与人工偏好胜率呈高度相关。VBVR-Wan2.2实验洞察谁是当前的推理王者推理能力的 Scaling Law (规模化规律)实验揭示了明显的规模效应在基础模型Wan2.2-I2V-A14B上利用VBVR-Dataset 上微调后得到的VBVR-Wan2.2模型在基准上实现了取得了显著性能提升。从0.371跃升至0.685整体相对提升达到84.6%并在多个能力维度上超过当时的主流专有模型。泛化能力的「早期信号」虽然域内与域外任务之间存在性能差距但研究观察到随着数据规模扩大模型开始表现出向未见过任务迁移推理能力的趋势。这意味着模型不仅仅是在记忆模式而是在逐步内化某些通用的物理或逻辑规则。这种性能提升并非可以无限持续。随着训练域外任务与域内任务之间仍然存在约15%的泛化差距。也就是说仅依赖于「增加同类型数据规模」虽然能够带来显著性能增益但仍不足以完全弥合系统性的泛化鸿沟。论文因此反复强调一个重要结论规模化能够显著提升性能但其效果仍然受到结构性上限的限制。研究人员希望VBVR-Dataset也能够为下阶段研究提供一个实验土壤社区可以以此为基础进行架构层面的改造例如显式状态跟踪、结构化推理模块、和自校正机制。场景可控性是可验证推理的先决条件Controllability before reasoning通过定性分析发现领先模型的高分本质上源于其极强的「约束执行」能力。相比于基础模型在生成时会随意重写背景或物体标识导致中间状态不可验证VBVR-Wan2.2展现出了一种「外科手术式」的精确度它能严格遵循指令执行删除、旋转或多步操作而不对画面其他元素产生任何意外扰动。这种「非必要不修改」的确定性证明模型已开始摆脱随意的「视觉脑补」转而学习在物理规则的框架内进行受控演进。图片4域外任务的定性概览部分A展示了VBVR-Wan2.2与Sora 2在三个任务上的同任务、同样本对比部分B展示了VBVR-Wan2.2在完全没见过的任务上的涌现现象; 部分C展示了VBVR-Wan2.2在任务上的实际边界。即使在改进后模型仍可能在长生成任务中仍会出现一些问题例如结果看似正确但中间步骤并不遵循真实决策逻辑。这类「答案对了、过程错了」的现象正是下一阶段视频推理评测必须继续强化的部分。开源共建, 赋能社区定义数据生产新范式VBVR团队坚信开放与共享是推动视频推理社区发展的基石。VBVR-Dataset的百万级视频数据已向社区全量公开。不仅如此各个任务的参数化生成器代码以及高效的DataFactory云端架构也将同步开源。基于云端无服务器的架构系统 AWS Lambda支持多达990个节点并行作业仅需2-4小时即可完成百万级数据的生产且单次运行成本控制在800-1200美元之间实现了极高的数据生产效能。

相关新闻