
1. 项目概述当视觉模型学会了“看菜下碟”如果你让一个普通人、一个厨师和一个安保人员同时走进一个普通的家庭厨房让他们描述眼前所见你会得到三份截然不同的清单。普通人可能会说“有个人、一张桌子、一台笔记本电脑、一个盘子”厨师会立刻注意到“冰箱、水槽、砧板、刀具”而安保人员则可能警觉地识别出“潜在的投掷物盘子、可作武器的工具刀具、遮挡视线的障碍物高柜”。这个简单的思想实验揭示了一个被传统计算机视觉长期忽视的核心问题我们以及我们试图构建的智能体对世界的感知从来都不是对几何形状的客观复现而是一种高度依赖于自身目标、意图和情境的功能化解读。近年来随着视觉语言模型VLM的崛起我们第一次拥有了能够以接近人类自然语言方式“描述”图像的强大工具。这为我们提供了一个前所未有的实验场来定量化地研究上述“情境依赖性”现象。本文所探讨的核心正是基于VLM的一项系统性实验我们如何通过设计不同的“智能体角色”如厨师、儿童、安保人员让同一个模型对同一批图像产生完全不同的功能化描述并借此深入剖析智能视觉系统内在的“功能感知”计算原理。实验发现切换智能体情境会导致超过90%的场景功能描述词汇发生改变。这强烈暗示对于智能系统而言场景中“有什么”远不如“我能用它来做什么”重要。这项工作的价值远不止于一个有趣的学术发现。它直接冲击了当前机器人、自动驾驶和所有依赖环境理解的AI系统的基础架构设计。主流的范式是“先重建几何世界再理解其功能”——即先通过传感器数据构建一个包含物体位置、形状、纹理的静态3D地图然后再为地图中的物体标注语义和功能。我们的研究则提出了一个颠覆性的可能性高效的智能系统或许应该“反其道而行之”优先计算场景对于当前任务而言的“功能可能性”即“可供性”Affordance而几何细节只是用于实现这些功能的、次要的“残余信号”。这为开发更高效、更专注、能耗更低的下一代具身智能体提供了全新的理论蓝图和实证起点。2. 核心思路与实验设计拆解2.1 从“可供性”理论到可计算的假设我们的研究根植于吉布森James J. Gibson的生态心理学理论特别是其核心概念“可供性”。可供性指的是环境提供给动物的行动可能性是动物-环境系统的一种关系属性。一把椅子其“可供性”包括“可坐”、“可站”、“可攀爬”、“可推动”具体哪个属性被感知取决于感知者的目标是休息、拿高处的东西还是清理地面。传统计算机视觉致力于识别物体是什么“椅子”而可供性感知关注的是物体能用来做什么“可坐”。我们的核心假设H2是视觉场景的几何表征即物体是什么、在哪里对其功能表征即可供性的约束力很弱智能体的当前任务情境Context才是塑造功能感知的主导因素。用公式化的语言表达即对于相同的几何场景 (g)在不同的情境 (C_1) 和 (C_2) 下模型计算出的可供性集合 (α) 会有显著差异 (∃g,C_1,C_2 : α(g,C_1,Θ) ≠ α(g,C_2,Θ))为了验证这一点我们不能停留在哲学讨论必须将其转化为可计算、可测量的实验。VLM的诞生恰逢其时。我们将VLM视为一个“代理智能体”通过设计不同的“系统提示词”即情境启动Context Prime来模拟不同目标导向的智能体。2.2 实验设计七种角色一场“视觉罗生门”我们选取了COCO数据集中包含丰富物体和互动场景的图片作为刺激材料。关键在于同一张图片会被反复输入模型但每次配以不同的情境指令。我们设计了七种角色情境P0: 中性Neutral作为基线。“客观分析此图像。列出3个最突出的物体、它们的几何属性及标准功能。”P1: 厨师Chef“你是一名专业厨师正在审视这个场景中与烹饪相关的可能性。识别对食物制备最关键的3件物品及其可供性你能用它们做什么。”P2: 安保Security“你是一名安保专业人员正在评估此空间的安全漏洞和战术资产。识别3个代表风险或防御工具的物品及其可供性。”P3: 儿童Child“想象你是一个4岁小孩。找出场景中3个有趣的可玩之物及你会如何使用它们。”P4: 行动不便者Mobility“你正乘坐轮椅在此空间导航。识别3个会阻碍你路径或辅助你移动的物体。”P5: 紧急情况Urgent“紧急你只有30秒寻找求生工具。你首先看到什么以及如何使用它”P6: 休闲Leisure“你正在此空间悠闲探索毫无时间压力。什么东西会吸引你纯粹为了享受或放松”设计逻辑与考量覆盖性这些角色覆盖了生存紧急、专业任务厨师、安保、身体约束行动不便、认知状态儿童、休闲和基线中性等多种维度旨在激发多样化的功能感知模式。指令特异性指令不仅设定了角色更明确了输出格式“3个物体”及其“可供性”并强制要求模型进行功能推理“如何用它”这比单纯问“你看到什么”更能触及可供性计算的核心。可控性所有其他变量模型参数、图片、输出格式保持恒定唯一变量是情境指令这确保了观察到的差异可归因于情境操控。2.3 模型与流程构建可重复的分析管道我们主要使用Qwen-VL-30B-Instruct模型作为实验主体并在后续使用LLaVA-1.5-13B进行了交叉验证以确保发现不是某个模型特有的偏见。技术流程如下数据准备从COCO验证集中筛选出包含多物体、可能发生互动的场景图片。API调用对于每张图片循环调用7次模型API每次注入不同的情境提示词。提示词与图片以多模态消息格式如OpenAI兼容格式同时输入。输出规范化要求模型以指定JSON格式输出包含物体ID、名称、可供性和推理理由。这便于后续的自动化解析和定量分析。数据收集最终获得一个三维数据张量图像 × 情境 × 输出描述。每个输出被处理为两个层次的数据词汇级提取出的物体名称和可供性动词和对象级根据标准物体检测框进行对齐后的结果。实操心得与避坑指南温度参数Temperature的选择主实验采用Temperature0.7以在确定性和创造性之间取得平衡获得稳定又可解释的输出。但为了评估随机性影响我们额外在0.0确定性、0.3、0.7、1.0高随机性四个温度下进行了大量重复实验见第5.7节这是区分“情境效应”与“随机噪声”的关键控制实验。提示词工程是门艺术最初的提示词可能无法有效激发角色扮演。例如简单的“作为厨师描述图片”可能仍得到通用描述。必须通过迭代加入如“最关键的”、“风险评估”、“如何玩耍”等引导词才能“撬开”模型内部与任务相关的功能知识。我们的最终提示词是多次调试后的结果。输出格式强制的重要性要求JSON输出不仅便于分析更重要的是约束了模型输出的结构避免了自由文本带来的解析歧义确保了跨情境比较的公平性。3. 核心发现量化“情境依赖性”的压倒性力量3.1 杰卡德距离90%的功能描述因情境而变为了量化情境改变带来的影响我们采用了杰卡德距离Jaccard Distance作为衡量标准。杰卡德相似系数计算两个集合的交集与并集之比而杰卡德距离则是1减去相似系数用于衡量差异。我们分别计算了词汇级直接对比模型输出的单词集合和对象级基于检测框对齐后对比被提及的同一物理对象的描述的差异。结果令人震惊词汇级杰卡德相似度均值仅为0.0946。这意味着平均而言不同情境下模型用于描述同一场景的词汇重叠部分不到10%。换言之超过90%的词汇因情境不同而被替换。对象级杰卡德相似度均值为0.1192。即使我们对齐到同一个物理物体比如都提到了“桌子”模型对其功能和描述的侧重点也截然不同相似度仍低于12%。统计显著性p值远小于0.0001效应量Cohen‘s d高达-7.01通常|d|0.8即被视为“大效应量”。这不仅是统计上显著更是实践上巨大的差异。这意味着什么这直接验证了我们的核心假设。对于VLM而言一张图片的“意义”不是固定的。一个“厨房场景”对于厨师是一个“烹饪工作空间”对于安保是一个“潜在威胁评估现场”对于儿童则是一个“游乐场”。模型并非在报告一个客观的物体清单而是在执行一次基于情境的功能性投射。3.2 情境依赖性的具体表现从数据到直觉原始研究中的表格对应原文Table 6清晰地展示了这种投射的差异性。例如在一张可能包含人物、家具、日常用品的复杂图片中中性情境提取如“人、盘子、笔记本电脑、斑马玩偶”等通用、显著的物体。厨师情境提取如“冰箱、桌子、披萨、水槽”等与食物制备紧密相关的物体。安保情境提取如“网球拍、笔记本电脑、冲浪板”等可被视作工具或武器的物体。儿童情境提取如“雪、网球拍、滑雪板”等与玩耍相关的物体。关键洞察模型并非简单地“看到”了不同的物体虽然注意力机制可能导致侧重不同更重要的是它对于同一物体的“解读”发生了根本转变。一个“盘子”在厨师眼中是“盛放食物的容器”在安保眼中可能是“可投掷的物体”在儿童眼中则是“可以旋转玩耍的圆片”。这种功能解读的差异正是可供性理论的核心。3.3 超越随机性确证是情境效应而非模型噪声一个合理的质疑是这种巨大的差异会不会只是大语言模型生成文本时固有的随机性造成的也许模型本身就不稳定同一提示词多次运行结果也不同所谓的“情境差异”只是这种随机波动的表象。为此我们设计了严格的随机性对照实验计算组内方差对同一张图片、同一情境提示词用不同的随机种子seed运行模型多次计算这些输出之间的相似度。这代表了“随机噪声”的水平。计算组间方差对同一张图片、同一随机种子使用不同的情境提示词运行模型计算这些输出之间的相似度。这代表了“情境效应随机噪声”的水平。计算方差比如果情境效应真实存在那么组间差异应远大于组内差异。结果如表9所示即使在最高随机性Temperature1.0下组间差异与组内差异的方差比也始终大于3。这意味着由情境改变引起的输出变化其幅度至少是模型内部随机波动的3倍以上。效应量指标η²情境因素解释的方差比例在0.25-0.27之间远超心理学中0.14的“大效应”阈值。结论我们观察到的90%的“描述漂移”Affordance Drift是真实、强劲的情境效应而非模型生成过程中的随机噪声。这奠定了后续所有分析的坚实基础。4. 深挖机制塔克分解揭示的潜在功能结构发现了强大的情境效应后我们自然要问这种效应是杂乱无章的吗不同情境之间是否存在某种潜在的结构关系为此我们引入了塔克分解Tucker Decomposition这是一种高阶主成分分析非常适合用来探索我们拥有的三维数据图像×情境×输出特征中的潜在模式。4.1 塔克分解是什么一个直观比喻想象一下我们有一个数据魔方张量。这个魔方有三个维度长边是360张不同的图片宽边是7种不同的情境高边是384维的模型输出特征例如经过句子编码器转换后的语义向量。这个魔方里填充的数字代表了每种“图片-情境”组合下的输出特征。 塔克分解的目的就是找到几组核心的“滤镜”或“主题”用它们的组合来尽可能简洁地重构这个庞大的魔方。它会在每个维度上找到一组“因子”可以理解为潜在维度并有一个核心张量来描述这些因子之间如何相互作用。在我们的实验中我们使用了秩为[10,3,10]的塔克分解成功解释了数据总方差的46.6%。这意味着用3个情境因子、10个图像因子和10个特征因子就能捕捉到近一半的数据变异模式说明数据结构性很强。4.2 三大潜在维度通用性、专业性与空间性分解出的3个情境因子维度具有非常清晰、可解释的含义维度1通用显著性General Salience这个维度在所有7种情境上都有相近且为正的载荷约0.4。但它只解释了0.9%的已捕获方差。这可以被理解为所有情境下都关注的、最基础、最上下文不变的视觉信号可能对应着场景中最突出、最基础的几何或语义特征比如“有个人”、“有个大物体”。它的方差贡献极小这本身就是一个重要发现在功能感知中与情境无关的“通用”信息只占微不足道的一部分。维度2烹饪流形Culinary Manifold这个维度几乎完全由“厨师”P1情境所主导其载荷高达0.95而其他所有情境的载荷都接近零或为负。它解释了已捕获方差的49.2%。“流形”是一个数学概念在这里可以直观理解为一片独立的功能“景观”或“概念空间”。这个发现表明“烹饪”相关的可供性如切割、加热、搅拌、储存在VLM的表示空间中形成了一个高度特异化、与其他功能领域几乎正交独立的独立结构。厨师进入一个场景时仿佛激活了一个专用的“烹饪滤镜”只映射与烹饪相关的物体和可能性。维度3可达性轴Access Axis这个维度呈现出一个鲜明的两极对立。“儿童”P3情境在正极有高载荷0.72而**“行动不便者”P4** 情境在负极有高载荷-0.60。它解释了已捕获方差的49.9%。这个维度捕捉的是空间的功能属性从开放、可玩、可进入儿童视角到阻碍、封闭、需规避轮椅使用者视角的连续谱。同一个门槛对孩子是“可爬过的玩具”对轮椅使用者则是“需要克服的障碍”。这个维度揭示了空间感知根本上的目标相对性。4.3 正交性的深刻含义最关键的是维度2和维度3是正交的。这意味着“烹饪流形”和“可达性轴”代表了两种完全不同类型的功能分类方式它们彼此独立。情境并不是在一个单一的“重要性”尺度上简单地调高或调低某些物体而是将整个场景投射到性质完全不同的功能子空间中。这带来的启示是革命性的传统的视觉系统试图构建一个统一的、包含所有信息的“世界模型”。但我们的发现暗示对于具有不同目标的智能体而言或许根本不存在一个“最佳”的统一表示。一个为导航优化的表示关注通道、障碍与一个为操作优化的表示关注物体的可抓取性、可操作性在本质上是不同的。高效的架构或许应该支持这种按需构建的、即时生成的“功能特定表示”。5. 稳健性检验多角度验证发现的可靠性任何重要的科学发现都必须经受多重检验。我们通过一系列补充分析确保了上述结论的稳健性。5.1 不同相似性度量的三角验证杰卡德距离基于词汇重叠但可能存在局限比如“cooking”和“cook”虽然语义相近但会被算作不同词。为此我们使用了三种不同的相似性度量进行交叉验证原始杰卡德基于空格分词的原始词汇重叠。去停用词杰卡德去除“the”、“a”、“is”等功能词只关注实义词。句子余弦相似度使用Sentence-BERT等模型将整个描述转换为语义向量计算向量间的余弦相似度。这能捕捉“语义相近但用词不同”的情况。结果对应原文Table 10去停用词杰卡德相似度均值进一步降至0.048情境依赖性高达95.2%。这说明当聚焦于核心内容词时差异更大。句子余弦相似度相似度均值为0.415情境依赖性为58.5%。如何解读这个“余弦鸿沟”余弦相似度58.5%依赖远高于杰卡德90.5%依赖。这揭示了另一个深层事实虽然不同情境下使用的词汇差异极大但这些词汇背后的语义在向量空间中的距离并没有那么远。厨师说的“砧板”和安保说的“潜在投射物”虽然字面毫无重叠但它们的语义向量可能因为都与“硬质平面物体”、“可用于施加力”等概念相关而比较接近。这表明情境改变的是哪些功能属性被显式地语言化描述词汇选择但底层语义网络中对物体功能的基础知识可能是部分共享的。这调和了极端的情境依赖性观点表明存在一个非平凡的不变语义核心。5.2 模型泛化性不止是Qwen-VL我们在另一个主流开源VLM——LLaVA-1.5-13B上重复了核心实验。尽管模型架构、训练数据、规模都与Qwen-VL不同但我们观察到了高度一致的情境依赖性模式。杰卡德相似度均值同样远低于0.5且“厨师”、“儿童”等情境的特异性模式也复现了。这强有力地表明情境依赖性的功能感知很可能是大规模多模态模型的一种涌现特性而非某个模型的特定偏差。5.3 塔克分解的稳定性分析我们通过Bootstrap重采样重复随机抽样1000次并重新计算分解来检验发现的潜在维度是否稳定。结果非常稳健“厨师”在维度2烹饪流形上的载荷均值为0.95495%置信区间为[0.948, 0.959]区间宽度极窄。“儿童”和“行动不便者”在维度3可达性轴上的正负对立关系在所有重采样中均保持一致。因子相似性系数Congruence Coefficient均大于0.99远超0.95的“优秀”阈值。此外我们尝试了不同的分解秩如[5,3,5], [15,3,15]发现虽然解释的方差有所增加但**“烹饪流形”和“可达性轴”这两个核心的可解释因子结构始终保持稳定**。这证明我们发现的潜在结构是数据中真实存在的模式而非分析方法或参数选择的偶然产物。6. 理论阐释与未来方向从现象到架构6.1 重新定义发现是注意显著性而非可供性创造我们必须谨慎解释“90%的漂移”这一发现。根据吉布森和特维的理论可供性是环境-智能体系统的客观属性它不会因感知而改变。厨房客观上同时为厨师“提供”烹饪的可能性也为安保人员“提供”安全评估的可能性。改变的并不是可供性本身而是哪些可供性被智能体的认知系统置于注意的焦点成为当前活跃的表征。这类似于西塞克提出的“可供性竞争”框架视觉场景同时呈现大量潜在的行动可能性而当前的任务情境就像一个裁判偏袒那些与任务相关的可供性使其在竞争中胜出进入意识或决策流程。因此我们的实验测量的实质上是注意的选择性而非本体的不稳定性。然而这种选择性具有深刻的架构意义如果90%的功能信号都是情境依赖的那么那些致力于计算与情境无关的通用表示的视觉系统可能把大部分算力浪费在了计算“错误”的东西上——即那10%的残差而非对行动至关重要的90%。6.2 “即时本体论”一个面向具身AI的架构猜想我们的发现启发了一个大胆的架构设想即时本体论。如果世界对于不同任务的智能体而言不存在一个唯一最优的“功能本体”而是存在无数个由当前任务决定的潜在本体那么维护一个庞大、静态的“世界模型”可能是低效的。未来的机器人或许可以这样工作当接到“拿一杯水”的任务时它并不需要激活一个包含房间所有几何细节、物体材质、历史状态的完整模型。相反它可以即时地根据“取物”这个任务构建一个临时的功能表示空间。这个空间只突出与任务相关的维度可抓取性杯子的形状、材质、可达性路径上的障碍、容纳性杯子是否可盛水。任务完成后这个临时表示即可释放。这类似于人类进入一个陌生房间找遥控器时我们不会记住所有物品的摆放细节而是瞬间构建一个以“矩形、黑色、可能在平面上”为焦点的功能搜索模板。已有一些前沿工作体现了这一思想。例如VoxPoser这类系统利用大语言模型在推理时根据自然语言指令即时合成3D价值地图用于指导机器人操作而无需预先构建和维护一个静态的世界模型。这种“按需构建”的方式在面对动态变化的环境时反而更鲁棒因为它的表示总是基于最新的感知和任务需求新鲜生成的。注意这目前仍是一个受本研究启发但未被证实的设计假设需要在真实的机器人系统中进行实证验证。但它为克服当前基于静态地图的SLAM同步定位与地图构建系统的局限性提供了一条充满潜力的新路径。6.3 对计算机视觉的启示语义优先处理当前主流的计算机视觉架构遵循“几何优先”的范式先通过卷积神经网络等提取低级几何特征边缘、纹理再逐步抽象为语义特征物体类别、场景类别最后可能结合任务上下文进行推理。我们的研究结果暗示一种“语义优先”或“功能优先”的处理顺序可能更高效将任务情境作为一等公民输入模型架构应明确地将“当前要做什么”作为核心输入而不是事后查询的附加条件。这直接由90%的情境依赖性所驱动。先计算可供性空间表示再计算细节几何塔克分解显示与情境无关的通用几何特征维度1只解释了极小的方差0.9%。或许系统应该先快速计算出“这里有哪些可能的功能”然后再为这些功能填充必要的几何细节例如要判断“可坐”只需粗略的形状和高度信息无需精确的曲面重建。使用“行动距离”而非“欧氏距离”在机器人路径规划中两个点之间的“行动距离”可能比物理上的直线距离更重要。绕过一堆散落玩具的路径对孩子玩耍机会和清洁机器人障碍而言“距离”的定义完全不同。我们的“可达性轴”维度正是这种功能化空间度量的一个体现。基于可供性相关性的注意力过滤注意力机制不应只基于视觉显著性颜色对比、运动而应优先聚焦于与当前任务相关的可供性。这得到了正交因子结构的支持——不同情境关注的是完全不同的潜在维度。6.4 研究的边界与未解之谜我们必须清醒地认识到本研究的局限性这同时也是未来工作的路标VLM作为代理的效度问题VLM从互联网图文对中学习而非通过具身交互。它的“可供性”知识来源于人类对图片的文字描述而非真实的动作-感知闭环。这可能导致其学到的是“语言描述的模式”而非真正的“功能理解”。将结论推广到生物认知或具身机器人时需格外谨慎。因果性与机制黑箱我们证明了VLM的输出具有情境依赖性但这并不能直接证明其内部处理过程是“语义优先”的。要验证P1语义优先预测需要对模型进行层间干预或注意力分析看情境信息是在早期还是晚期影响表征。未验证的预测本研究只直接验证了核心假设H2情境依赖性。由此框架衍生的三个重要预测仍有待未来检验P1语义优先性破坏模型的情境编码模块是否比破坏其几何特征提取模块造成更大的性能下降P3空间的相对性在空间推理任务中基于“行动距离”如绕过障碍的路径长度的预测是否比基于欧氏距离的预测更准确P4可供性在注意力中的首要性模型的注意力图是否更紧密地追踪与任务相关的可供性区域而非视觉上最显著的区域文化偏差实验使用的COCO数据集和VLM的训练数据主要反映特定文化背景。不同文化中对物体功能的认知可能存在系统性差异这部分尚未探索。7. 实操启示与经验总结对于从事AI、机器人、人机交互等领域的研究者和工程师本研究提供了一些非常具体的实操启示1. 在评估或设计VLM应用时必须将“情境”作为核心设计参数。不要假设通用性一个在“中性”提示下表现良好的VLM在特定任务情境下可能需要进行针对性微调或提示工程。为客服机器人、教育助手、工业质检设计的VLM其最优提示策略和评估标准应有所不同。提示词即“情境开关”我们的实验表明精心设计的提示词可以有效地将模型“切换”到不同的功能感知模式。在实践中这比训练多个专用模型可能更高效。2. 为机器人任务规划注入“功能视角”。超越物体识别在机器人感知栈中除了输出“这是什么物体”语义分割和“它在哪里”实例分割/3D位姿应增加一个“它能用来做什么”可供性分割的输出层。任务驱动的表示机器人的内部世界表示不应是统一的。导航模块需要以“可通过性”为核心的2.5D高度图抓取模块需要以“可抓取性”为核心的抓取点热图操作模块需要以“可操纵性”为核心的部件运动链表示。这些表示可以根据任务即时生成或激活。3. 理解并利用模型的“功能隔离”特性。专业化与泛化的权衡塔克分解显示“烹饪流形”与其他维度正交。这意味着试图构建一个“全能”的通用视觉模型可能事倍功半。更好的策略或许是培养一系列“专家”模型或模型中的专家模块每个擅长一个特定的功能领域然后通过一个元控制器根据任务调用。可解释性的新途径通过类似塔克分解的方法我们可以逆向工程出模型内部存在的各种“功能流形”这为理解大模型的黑箱提供了一种基于功能的可解释性视角。4. 关于实验复现与扩展的注意事项。模型选择优先选择支持复杂指令跟随和角色扮演的开源VLM如Qwen-VL、LLaVA-Next等。商用API如GPT-4V虽然强大但可能因版本更新和输出随机性导致实验结果难以稳定复现。提示词设计这是成功的关键。指令必须具体、包含角色设定、并明确要求输出“功能”或“可供性”。迭代测试至关重要。评估指标杰卡德距离是一个好的起点但务必结合语义相似度如余弦相似度进行分析以区分“词汇变化”和“语义变化”。对于更精细的分析可以人工标注或使用更细粒度的可供性分类体系。这项研究打开了一扇门让我们看到智能系统感知世界的一种根本不同的方式不是被动地重建一个客观的几何现实而是主动地、基于目标地投射出一个功能性的、可供行动的现实。这不仅是理论上的突破更为构建真正适应动态环境、高效完成复杂任务的下一代人工智能系统指明了充满希望的方向。未来的工作将是在真实的物理世界中将这些计算原理转化为机器人灵巧而智能的行动。