缓解模型关系幻觉（关系感知视觉增强）-尧图网站设计

论文文章Mitigating Action-Relation Hallucinations in LVLMs via Relation-aware Visual Enhancement核心针对LVLM中的动作关系幻觉提出一种不训练模型、只在推理阶段修改attention的关系感知视觉增强方法。它解决的不是“图像里有没有某个物体”这种对象幻觉而是主体 - 动作关系 - 客体 subject - action relation - object例如woman - ride - bicycle woman - push - bicycle man - kiss - woman man - not kiss - woman man - hold - surfboard man - ride - surfboard论文认为LVLM之所以容易产生动作关系幻觉主要原因是模型在生成答案时过度依赖语言先验而对真正关键的视觉区域关注不足。论文观察到虽然图像token在输入序列中占大多数但模型分配给图像token的attention明显低于文本token文本token获得的attention约为图像token的10到100倍。流程图一句话的解释推理过程中模型更加关注视觉中的关系Action-Relation-Sensitive Head Identification:找到LVLM中对关系敏感的头Action-Contrastive Pair Construction构建一张图片两个对话只有关系改变控制变量可以看到后续哪个头变化大那么这个头是对关系敏感LVLM Architecture图片和文字编码和进入LVLMCalculate ARS Score统计每一层中每一个头的分数变化Relation-Aware Visual Enhancement用上述找到的对关系敏感的头增强对图片中关系的关注\对关系不敏感的头减少对图中的关注Relation-Aware Visual Enhancement选中top-k个对关系敏感的头对他们关注的patch取后用射到图中\选中bottom-k个对关系不敏感的头对他们关注的patch取后映射到图中Attention Mask Construction and Enhancement对他们关注的patch取平均后得到图中关注的像素点\选中bottom-k个对关系不敏感的头对他们关注的patch取平均后得到图中不关注的像素点然后让模型更加关注top-k的关注的patch\不关注bottom-k的关注的patch。

缓解模型关系幻觉（关系感知视觉增强）

相关新闻

WarcraftHelper完整指南：彻底解决魔兽争霸3兼容性问题的终极免费工具

做网站运维的谁懂啊！SSL证书续费居然是个大坑[特殊字符]

数字沙盘水文动态扩散可视化系统电子沙盘

怪物猎人世界终极辅助工具：HunterPie 5分钟快速上手指南

CCE Cash SOL混币实操：SOL跨链交换混币为BNB只需2-5分钟

分层实验智能体（HExA）：基于上下文自演化物理推理智能体框架

从消费决策变化看信息透明化的商业价值

非常酷的AI呼叫流程

智能科学毕业设计容易的方向集合

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战

终端里的 AI 驾驶舱：Claude Code 斜杠命令深度解析

华为OD机试2025C卷-字符串变换最小次数[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-内存资源分配[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战