
当大语言模型能写代码、做方案、甚至通过司法考试却始终搞不懂一个简单的问题为什么“尖叫”和听觉、口腔动作强相关为什么“苹果”的视觉感知强度远高于嗅觉这就是AI领域公认的“具身鸿沟”纯文本训练的LLM缺乏与物理世界的直接交互其语言表征无法对齐人类的感官运动体验。在非感官特征上LLM能做到和人类高度一致但在视觉、听觉、触觉、肢体动作等具身概念上表现却一塌糊涂。难道要弥补这个鸿沟只能靠成本极高的多模态预训练吗近日来自根特大学、马德里理工大学的研究团队给出了否定答案。他们通过系统性实验证明仅需基于人类感官评分的监督微调就能大幅重塑LLM的语义空间让其表征高度对齐人类的具身体验。这项研究不仅验证了微调对弥合具身鸿沟的有效性更首次拆解了其底层机制微调带来的不是简单的全局性能提升而是一场针对性的、纠错式的表征空间重组。同时研究还揭示了这种能力的泛化边界——跨语言迁移极强跨任务却几乎失效。核心背景LLM的致命短板看不见摸不着的“具身盲”过去的研究早已证实LLM在词汇的具体性、情感效价、唤醒度等维度能生成和人类高度一致的评分但在感官运动相关的概念上却存在系统性缺陷。比如GPT-3.5、GPT-4等主流模型在视觉、味觉、手部动作等维度的表征和人类评分的相关性极低甚至出现负相关。究其根本人类对世界的认知建立在身体与环境的交互之上——我们知道“奔跑”是什么是因为我们用腿跑过知道“酸甜”是什么是因为我们用舌头尝过。而纯文本训练的LLM只见过这些词汇的文本共现从未有过真实的感官体验。此前学界普遍认为要解决这个问题必须给模型加入多模态预训练让它同时学习文本、图像、音频甚至视频数据。但多模态训练不仅算力成本极高还需要海量的对齐数据难以规模化落地。而这项研究的核心问题正是要回答低成本的任务特定微调能否弥补LLM的具身鸿沟如果能它是如何起作用的泛化性又如何实验设计三大微调模型三级深度分析为了系统解答这些问题团队以GPT-4o-mini为基础模型构建了三个差异化的微调版本同时设计了从全局结构到单概念细节的三级分析框架。三大微调模型1. En_FT基于2358个英语词汇的人类感官运动评分微调覆盖6个感官维度5个运动维度共25938个训练样本2. Nl_FT基于荷兰语的感官评分微调仅覆盖6个感官维度共14148个训练样本3. QA_FT基于感知问答数据集微调采用选择题格式探究任务格式对泛化性的影响。核心数据集研究采用了业界权威的兰卡斯特感官运动规范39710个英语词汇11个维度、荷兰语感官规范以及PerceptualQA问答数据集确保实验结果的可靠性。三级分析框架1. 全局结构级通过表征相似性分析RSA对比模型与人类的语义空间结构差异2. 维度级拆解11个感官运动维度分析微调在不同维度上的提升差异3. 概念级深入到单个词汇探究微调对表征的重塑机制。核心发现微调不是全局提升而是精准的表征重组1. 全局结构微调让模型语义空间高度对齐人类RSA分析的结果直接证实了微调的惊人效果。如图1所示基础模型在英语测试集上和人类表征的相关系数仅为0.192而英语微调后的En_FT模型这一数值飙升至0.724荷兰语微调的Nl_FT模型在荷兰语测试集上也将相关系数从0.125提升到了0.721。更关键的是这种能力实现了强跨语言泛化英语微调的模型在荷兰语概念上的相关系数从0.125涨到0.641荷兰语微调的模型在英语概念上也从0.192提升到0.577。这说明微调让模型学到的是跨语言的、抽象的感官运动结构而非单纯的语言表面特征。同时团队还发现了一个有趣的现象仅在感官维度上微调的Nl_FT和QA_FT模型其运动维度的表征也出现了显著提升。这证明LLM的感官和运动语义空间是高度互联的对一个维度的监督学习会带动相关维度的同步优化。2. 维度级全维度提升却高度依赖学习信号质量从维度级的拆解分析中我们能更清晰地看到基础模型的缺陷以及微调的修复效果。基础模型的表现堪称惨淡11个维度中最高的手部动作维度相关系数仅0.51视觉维度甚至低至-0.08和人类认知完全背离。而微调后的En_FT模型在7个维度上相关系数突破0.8即便是表现最差的味觉维度也从0.36提升到了0.56。但研究也发现了微调的边界味觉、嗅觉维度的提升始终有限。核心原因在于人类对这两个维度的评分高度集中在低分区间方差极低能给模型提供的学习信号严重不足。这也说明微调的效果上限本质上由训练数据的信息丰富度决定。而最值得警惕的发现是任务格式不匹配的微调几乎完全无效。QA_FT模型在一半的维度上表现和基础模型没有显著差异即便有提升也微乎其微。这证明想要重塑模型的具身表征不仅需要人类的判断数据更需要和目标任务高度对齐的学习目标。3. 概念级近零相关微调彻底洗牌了模型的性能排名这是研究最颠覆性的发现微调带来的不是均匀的全局提升而是一场针对性的纠错式重组。如图3所示基础模型和En_FT、Nl_FT模型的词级性能排名相关系数仅为-0.047和-0.152几乎为零。这意味着微调后模型的表现排名被彻底打乱了原来在基础模型中对齐度最差的概念得到了最大幅度的修正排名大幅上升而原本对齐度尚可的概念提升有限排名相对下降。这一结论彻底推翻了“微调是给模型整体性能做加法”的固有认知。梯度更新会精准锁定模型与人类认知偏差最大的部分进行重点修正最终让整个语义空间朝着类人的方向重构。与之形成鲜明对比的是QA_FT模型和基础模型的排名相关系数高达0.656说明它只是强化了模型原有的表征并未实现结构性的重塑。而En_FT和Nl_FT两个跨语言微调模型排名相关系数达到0.368证明它们正朝着同一个类人的表征结构收敛。在“SHOUTER”这个词的雷达图中我们能直观看到这一效果基础模型的感官轮廓平坦且完全偏离人类En_FT模型则精准复刻了人类在听觉、口腔动作维度的峰值而QA_FT模型依然和基础模型相差无几。结语低成本路径让AI真正“接地”这项研究用严谨的实验给行业带来了三个颠覆性的认知第一LLM的语义表征具备极强的可塑性无需昂贵的多模态预训练仅需少量人类评分的监督微调就能大幅弥合具身鸿沟第二微调的核心机制是纠错式的表征重组而非全局提升它会精准修正模型与人类认知偏差最大的部分第三微调的泛化性呈现清晰的边界跨语言迁移能力极强跨任务格式却几乎失效学习目标的对齐度是决定效果的核心。对于AI行业而言这项研究的意义远不止于理论层面。它为我们提供了一条低成本、可落地的路径让纯文本大模型也能获得对齐人类的具身感知。未来我们或许能通过这种方式让AI不再是只会玩弄文字的“语言机器”而是真正理解人类感官与体验、能和物理世界深度交互的智能体。当然研究也指出了未来的方向想要让模型获得更通用的具身认知未来可以引入人类的fMRI、脑电等神经信号作为监督让模型的内部激活直接对齐人类大脑处理感官信息的神经模式真正实现从“模仿语言”到“复刻认知”的跨越。https://arxiv.org/pdf/2603.03313这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容