缓解模型关系幻觉(关系感知视觉增强)

发布时间:2026/7/1 16:15:59

缓解模型关系幻觉(关系感知视觉增强) 论文文章Mitigating Action-Relation Hallucinations in LVLMs via Relation-aware Visual Enhancement核心针对LVLM中的动作关系幻觉提出一种不训练模型、只在推理阶段修改attention的关系感知视觉增强方法。它解决的不是“图像里有没有某个物体”这种对象幻觉而是主体 - 动作关系 - 客体 subject - action relation - object例如woman - ride - bicycle woman - push - bicycle man - kiss - woman man - not kiss - woman man - hold - surfboard man - ride - surfboard论文认为LVLM之所以容易产生动作关系幻觉主要原因是模型在生成答案时过度依赖语言先验而对真正关键的视觉区域关注不足。论文观察到虽然图像token在输入序列中占大多数但模型分配给图像token的attention明显低于文本token文本token获得的attention约为图像token的10到100倍。流程图一句话的解释推理过程中模型更加关注视觉中的关系Action-Relation-Sensitive Head Identification:找到LVLM中对关系敏感的头Action-Contrastive Pair Construction构建一张图片两个对话只有关系改变控制变量可以看到后续哪个头变化大那么这个头是对关系敏感LVLM Architecture图片和文字编码和进入LVLMCalculate ARS Score统计每一层中每一个头的分数变化Relation-Aware Visual Enhancement用上述找到的对关系敏感的头增强对图片中关系的关注\对关系不敏感的头减少对图中的关注Relation-Aware Visual Enhancement选中top-k个对关系敏感的头对他们关注的patch取后用射到图中\选中bottom-k个对关系不敏感的头对他们关注的patch取后映射到图中Attention Mask Construction and Enhancement对他们关注的patch取平均后得到图中关注的像素点\选中bottom-k个对关系不敏感的头对他们关注的patch取平均后得到图中不关注的像素点然后让模型更加关注top-k的关注的patch\不关注bottom-k的关注的patch。

相关新闻