CVPR 2026 | 小米×武大3B模型学会共情，暴打一众强化学习基线-尧图网站设计

本文介绍的研究来自 CVPR 2026作者团队来自小米大模型 Plus 团队与武汉大学计算机学院。武汉大学团队在视觉理解、多模态推理和情绪计算方面积累深厚小米大模型 Plus 团队则在大模型训练、强化学习框架和工程化落地方面经验丰富。过去一段时间多模态大模型MLLMs的进展主要集中在视觉问答、图像描述、跨模态生成等「认知型」任务上。但如果大模型的能力只停留在「看懂世界」那它离真正的类人智能还差一个关键维度。真正更值得追问的问题是模型能不能不只是「看见」画面而是「感受」画面——理解一张图像背后的情绪因果链像人一样先观察、再共情、最后判断近期武汉大学与小米大模型 Plus 团队联合提出的 EMO-R3 尝试去回答上述问题。从结果上看这条路线确实带来了实际性能收益EMO-R3 基于仅 3B 参数的 Qwen2.5-VL-3B-Instruct在域内和域外情绪推理任务上均显著超越 GRPO、DAPO 等当前最强的强化学习基线。这说明情绪理解的瓶颈不在于模型参数量而在于训练范式是否与情绪认知的内在结构相匹配。只要给模型植入正确的推理框架和反思机制即使是轻量模型也能展现出远超基线的情绪推理能力。论文地址https://arxiv.org/abs/2602.23802重新思考情绪理解的价值与存在的问题现有多数将强化学习应用于情绪任务的方法仍然停留在把通用 RL 框架直接搬来用的阶段——用 GRPO 训练情绪模型就像用数学题的做题方法去做阅读理解。EMO-R3 想推动大家重新思考这个方向的目标函数情绪理解不是一个简单的分类问题而是一个需要结构化推理的任务。人类判断情绪时会经历从「看见什么」到「感受到什么」再到「做出判断」的完整认知链条而现有方法完全没有建模这个过程。换句话说情绪 AI 最值得做的事是让模型像人一样经历「先观察、再感受、最后判断」的推理过程而不是把「贴对标签」本身当作终点。〓图1. 动机说明a) SFT 依赖人类注释受限于固定标签和有限类别导致泛化和可解释性差。它在「风景-敬畏」等域内配对上表现良好但在域外或未见过的情况下如「运动-惊喜」表现不佳b) GRPO 虽提高了泛化能力但其思维过程不以情感为导向与最终答案联系薄弱如推理过程得出「娱乐」预测却是「恐惧」。基于这一观察EMO-R3 揭示了现有方法的两个结构性缺陷。首先是 SFT 的「死记硬背」问题。监督微调在情绪任务中看似有效但它学到的往往只是训练数据分布内的情感—场景对应关系而不是真正理解图像中情绪产生的原因。比如若训练集中缺少“惊讶”这类情绪模型在测试时就很难准确识别相关样本同样如果训练数据主要集中在风景场景模型也往往难以泛化到动作等其他场景中的情绪表达。也就是说SFT 更擅长拟合“见过的分布” 一旦遇到超出训练分布的组合性能就会明显下降。图 1(a) 展示的正是这种典型局限模型能够给出答案却缺乏跨场景、跨情绪的泛化能力同时也无法解释具体的原因。第二是 GRPO 在情绪任务中「无法适应」问题。GRPO 在数学推理中表现出色一个关键原因是这类任务中推理过程与最终答案高度耦合只要中间推错一步答案通常也会随之出错。但情绪理解并非如此。正如图 1(b) 所示模型即使生成了一段与情绪判断并不一致、甚至偏离图像内容的推理也仍有可能凭借偶然匹配猜中标签从而获得奖励。与此同时通用 GRPO 所生成的推理过程往往遵循的是一般性 reasoning pattern而不是人类进行情绪理解时更自然的认知路径这进一步导致模型难以形成可靠的情绪推理能力。也正因为如此通用强化学习框架在情绪任务上集体「水土不服」不是因为 RL 本身不好用而是情绪推理有着与数学推理截然不同的内在结构——推理链与答案之间是弱耦合的只奖励答案无法约束推理过程。EMO-R3 的模型设计〓图2. EMO-R3 的完整架构。上半部分为结构化情感推理提示词模块包含三步递进式推理流程并最终输出情感答案。下半部分展示反思式情感奖励机制该机制对多组推演样本进行评估综合考量图文一致性与情感逻辑连贯性并在 GRPO 框架下结合原有格式奖励与精度奖励完成联合优化。围绕这一目标EMO-R3 主要包含三个关键设计。首先是 Structured Emotional ThinkingSET——让模型模拟人类的情绪认知。传统 GRPO 中模型的思考过程是完全自由的生成的 think 文本往往碎片化、与情绪无关、缺乏逻辑连贯性。SET 将这种自由散漫的思考过程约束为模拟人类情绪认知的三步结构。第一步是情绪触发识别模型必须指出图像中哪些具体的视觉元素表情、动作、色调、环境可能触发情绪反应。第二步是人类情绪反应模型需要描述人类看到这些元素后会产生怎样的情绪体验——是紧张、放松、愉悦还是不安。第三步是情绪结论把前两步的推理结果整合为最终判断包括情绪极性正/负和唤醒度高/低。这三步对应认知心理学中情绪产生的三个阶段感知刺激、情绪唤起、认知评价。通过强制模型遵循这个结构每一步思考都有了明确的语义不再是东一句西一句的自由散漫。更重要的是这个结构为下一步的「质量检查」提供了可操作的基础。第二是 Reflective Emotional RewardRER——让模型学会反思自己的推理。让模型模拟人类的情绪认知还不够模型可能按格式写了三步内容却全是胡说八道。RER 的核心思想非常直接既然推理链不可靠那就让模型自己检查自己。RER 由两部分组成。图文一致性检查把 Step 1 的描述和原图一起送回模型让它判断「这段视觉描述跟图片对得上吗」对得上给分对不上扣分从源头杜绝「编造视觉内容」。情绪连贯性检查则把 Step 1 和 Step 2 合在一起送回模型问「根据这段推理应该是什么情绪」推出的情绪跟标准答案一致就给分不一致就扣分保证推理链和结论之间的逻辑绑定。这意味着RER 把奖励信号从「答案对不对」扩展到了「推理过程对不对」——这是情绪任务第一次真正实现对推理链质量的直接监督而不是只靠答案间接约束。第三是 Cold-Start-Emo 冷启动策略。预训练模型自带的情绪常识往往与下游数据集的标注标准对不上。比如模型觉得「独自散步」是忧伤的数据集却标注为「平静」。如果直接上强化学习大量奖励信号会因为这种错位而失效训练陷入恶性循环。Cold-Start-Emo 用少量样本做一次极轻量的微调只为让模型快速理解「这个任务的标签长什么样」——不教它怎么推理只教它任务格式和标签体系然后把真正的推理能力交给 RL 去打磨。实验结果EMO-R3 的实验覆盖了 in-domain 和 out-of-domain 两类场景。研究团队选择了三个经典的视觉情绪数据集EmoSet8 类、Emotion66 类和 WebEmo7 类并分别在 EmoSet 和 Emotion6 上进行训练再在其他数据集上测试跨域表现。基础模型采用 Qwen2.5-VL-3B-Instruct对比方法包括 Vanilla无训练、SEPM训练-free 方法、GRPO 和 DAPO 等强化学习范式。〓图3EMO-R3 与最先进 GRPO 变体在域内和域外情绪推理任务上的性能对比。标有上标 I 的数据集如 EmoSet^I 和 Emotion6^I表示域内训练数据集。EMO-R3 在所有设置下均取得最佳表现。实验结果表明EMO-R3 能够在整体性能上带来稳定且一致的提升。这说明结构化推理与反思式奖励确实增强了模型的泛化能力——情绪推理不再是「记住训练集的标签分布」而是真正学会了如何推理情绪。〓图4训练过程中的训练和测试准确率曲线。EMO-R3 整体优于其他两个基线模型。训练稳定性也大幅提升RER 的引入有效减少了 GRPO 在情绪任务中的震荡与不收敛问题。〓图5同一张图片GRPO 和 EMO-R3 的推理对比。为了更直观地展示 EMO-R3 的推理质量提升论文给出了一组典型案例对比。场景是一个人坐在开满花的树下背景是平静的水面正确情绪是「contentment满足」。GRPO 的推理过程写了「场景平静、人物在享受自然」——逻辑完全指向积极情绪然后最终答案一拍脑门选了「sadness」。而 EMO-R3 严格按三步结构推理先识别花朵盛开和人物放松的状态再描述由此产生的平和与安宁感受最终自然而然地得出「contentment」。这一案例表明 EMO-R3 能够准确捕捉细微的情感线索并展现出情绪连贯的推理从而实现更好的情绪理解。这说明当推理过程必须经得起「自我检查」时模型就没法再用碎片化的文字敷衍了事。RER 反思机制让推理链从「随便写写」变成了「有结构、有逻辑、有依据」。〓图6训练过程的效率分析在训练效率方面RER 的引入大约增加 1.26 倍训练时间主要来自对每个 rollout 多做两次前向推理。但有两个关键点第一推理阶段完全不需要反思模块部署后的模型跟普通模型一样快第二对比 DAPO 训练到一半崩溃白白浪费全部算力多花 26% 换来稳定收敛这笔账怎么算都划算。从更大的角度看EMO-R3 想推动大家重新思考情绪理解的训练范式。它不应该只是把通用 RL 搬过来用而应该从任务本身的认知结构出发设计与之匹配的推理框架和奖励机制。EMO-R3 做的三件事——定义推理应该长什么样SET、确保推理过程经得起检验RER、解决从零开始的冷启动问题Cold-Start-Emo——构成了一套完整的方法论。这套思路不局限于情绪任务美学评价、道德判断、文化理解……任何推理链与答案弱耦合的主观任务都可能从中受益。对情绪智能来说真正重要的也许从来不是「识别情绪」而是能不能像人一样先看见、再感受、最后才判断。更多阅读#投稿通道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·

CVPR 2026 | 小米×武大3B模型学会共情，暴打一众强化学习基线

相关新闻

OpenClaw-Doctor：Claude CoWork环境自动化诊断与修复工具详解

Go语言HTTP服务器框架hago：高性能可扩展的构建块设计

PX4无人机OFFBOARD控制仿真：从零搭建到代码实战全解析

开发者光标优化指南：提升编码效率与视觉体验

北大官宣：严禁安装OpenClaw！“没关系，奇墨会出手”

美丽新天的

GPT5.5复杂任务拆解提示策略单次对话搞不定的活这样分

手把手教你搞定Microchip SAM D51与LAN9253的SPI引脚配置（附PCB设计要点）

免费音频编辑软件Audacity：专业级音频处理轻松上手

终极UE5项目版本控制指南：让大型游戏项目协作提速50%的完整方案

从IMU到UWB：拆解美国队长盾牌自主归位的嵌入式控制核心

5大革新点解析：Faze4六轴机械臂从开源设计到工业级应用的实战指南

贾子竞争哲学与文明范式革命：让对手失去存在的意义

【斯普林格Springer 旗下的Atlantis Press出版社出版 | EI Compendex、Scopus、谷歌学术】第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026）

AI 范式文明依附与贾子理论的破局价值：技术主权视角下的中美 AI 竞争伪命题批判

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

全平台智能资源下载工具：res-downloader 完整使用教程