首尔国立大学:不需要任何训练,AI读图就能知道你的手摸在哪里

发布时间:2026/5/16 18:06:43

首尔国立大学:不需要任何训练,AI读图就能知道你的手摸在哪里 这项由首尔国立大学Seoul National University人工智能研究所及电气与计算机工程系联合开展的研究以预印本形式于2026年5月7日发布论文编号为arXiv:2605.05886感兴趣的读者可以通过该编号查阅完整论文。每当你拿起一支笔、握住一个杯子或者按下键盘上的某个键你的手指和手掌都在与物体发生着精妙的接触。某些手指的指尖碰到了物体某些手掌的区域在承受压力某些侧面在提供支撑——这些接触信息对于机器人学习抓取物体、虚拟现实还原手部动作、医疗康复评估手功能来说都是极其宝贵的数据。然而要让计算机从一张普通照片里判断出手的哪个位置正在接触物体其难度远超想象。首尔国立大学的研究团队对这个问题产生了浓厚兴趣。他们想到了一条全新的路既然现在的大型多模态语言模型也就是那种既能看图又能说话的超级AI比如GPT系列已经对世界有了如此丰富的理解何不让它直接来完成这项任务这个想法听起来简单实现起来却充满挑战。他们最终提出了一套叫做ContactPrompt的方案整个系统无需针对手部接触数据做任何专项训练却在测试中超越了那些用几十万张图片反复训练出来的专业模型。一、手部接触识别比看起来难得多的难题要理解这项研究的价值先来感受一下这道难题的难度。当你用手握住一根铅笔时接触发生在哪里大拇指的指腹、食指的侧面、中指的远端关节处、手掌靠近拇指根部的那片区域……这些接触点分散在手部数百个不同的位置。研究人员用来描述手部形状的标准模型叫做MANO手部网格这个模型把整个手拆分成778个顶点就像用778个钉子撑起一个手套的形状。要完整描述手部接触就需要对这778个顶点逐一判断这个点接触了吗传统的做法是收集大量真实的手部接触数据标注出每张图里哪些顶点发生了接触然后用这些数据训练一个专门的神经网络。首尔国立大学的团队查阅了已有的研究发现此前最好的方法之一——HACO——是用来自14个不同数据集、合计65.5万张图片反复训练出来的。这种方式对数据量的依赖非常高而且每次要应用到新场景时都需要重新调整。研究团队决定换一种思路。他们的核心想法是那些能看图说话的超级AI已经在海量的图片和文字中学会了理解人在做什么、手是怎么放的、物体在哪里。这种理解能力加上一套聪明的提问方式或许就足以完成手部接触的识别而完全不需要再去收集专门的接触标注数据。二、两堵横在路上的墙然而直接把3D手部数据扔给AI让它判断接触效果非常糟糕。研究团队分析后发现障碍主要来自两个方向。第一堵墙是3D几何信息的传递问题。MANO手部网格是一堆三维坐标比如某个顶点的位置是(x0.023, y0.115, z-0.008)。把这样的数字流水账直接输入给语言模型模型根本不知道这些数字代表什么空间关系。这就好比把一张建筑图纸的所有尺寸数据用文字念给一个从未见过图纸的人听他不可能从那串数字里想象出建筑的样子。语言模型本质上是处理语言和图像的工具三维坐标对它来说是陌生的语言。第二堵墙是细粒度预测的问题。即便能把手部形状传达给AI让它对778个顶点逐一给出0或1的判断也非常困难。为每个顶点写一句描述性文字就需要778句话输入太长效率极低。更麻烦的是语言本来就不擅长描述毫米级别的空间差异——食指远端关节掌侧偏尺侧的第三个顶点这样的描述人类自己都很难理解更别说让AI去对应到具体位置了。这两堵墙把直接方案堵死了。于是研究团队开始思考有没有一种方式既能把手部的三维几何结构变成AI能理解的形式又能让AI高效地完成接近778个点级别的细致预测三、把手部地图重新划分103块有意义的区域研究团队提出的第一个关键设计是对手部做一次全新的语义化分割。以往的方法比如另一个叫DIGIT的系统把手部分成的区域相对粗糙而ContactPrompt把手部细分成了103个区域每个区域都有一个清晰的名字和明确的功能含义。这103个区域是如何划分的呢整个手部首先按照朝向分成四个大面掌面手心朝向、背面手背朝向、桡侧面靠拇指方向的侧面和尺侧面靠小指方向的侧面。在掌面内部又进一步细分出了指根区域、手掌中心的近端、中段、远端区域、大鱼际拇指根部那块鼓起来的肉、腕部区域以及手掌两侧区域。手背则分成了指关节区域和每根手指对应的掌骨区域。每根手指又分成近端节、中间节、远端节每一节还有朝向上的细分另外还单独标出了指尖。特别值得一提的是拇指和食指之间的虎口区域被单独标出来因为拿笔、捏住细小物体时这个区域发挥着关键作用。为什么要做这么细的分割这样做有两重好处。第一每个区域都有一个普通人能理解的名字比如食指远端节掌侧或拇指指尖这样AI就可以用语言来推理哪个区域接触了物体而不需要理解三维坐标。第二103个区域对于778个顶点来说是一个很好的中间层——比直接处理778个点容易又比只有几个粗糙区域的方案精细得多。实验数据也印证了这个设计的价值。与使用DIGIT那种较粗糙分割的版本相比使用103个精细区域后准确率Precision即预测为接触的点有多少真的在接触提升了17.1%召回率Recall即真正接触的点有多少被预测出来了大幅提升了53.0%综合得分F1分数提升了35.2%。更有意思的是精细分割不仅提高了准确性还让AI的输出更精简输出的词语数量减少了32.4%推理成本也随之降低。背后的逻辑是区域划分越有意义AI就越能聚焦在真正相关的区域不会漫无边际地猜测。四、顶点网格给每块区域画一张座位表解决了区域划分的问题下一步是如何在每个区域内精准定位到具体的顶点。研究团队引入了一个叫分区顶点网格的设计这是ContactPrompt最精巧的机制之一。可以用座位表来理解这个设计。假设食指远端节掌侧这个区域里有若干个顶点研究团队把这些顶点按照从指尖到指根的方向排成若干行每行里的顶点则从左到右排列以图像中的视角为准。这样整个区域的所有顶点就形成了一个类似Excel表格的结构每个格子对应一个顶点。AI在预测时只需要在这张座位表里对每个格子填入0不接触或1接触。这种方式有几个聪明之处第一表格结构保留了顶点之间的空间邻接关系相邻顶点在表格里也相邻AI可以理解这一行的顶点接触了那么旁边行的顶点可能也接触了这样的空间逻辑第二AI不需要知道每个格子对应的具体三维坐标只需要知道格子的行列结构大大降低了输入的复杂度第三预测结果是规则的二进制矩阵非常容易验证和解析。在视觉提示图像中研究团队还专门设计了一套可视化方式每行的起始点用一个圆点标出行内的顶点用线段连接相邻行之间也有连接线整体看起来就像一张渔网覆盖在手部表面。这张渔网图作为图片输入给AI帮助它在看图时建立哪个区域对应哪个网格的直觉。实验证明顶点网格的引入带来了显著改善。与去掉网格结构将每个区域的所有顶点压缩成一行的版本相比引入网格后召回率提升了55.7%综合F1分数提升了21.8%。召回率的大幅提升说明网格结构让AI能够更完整地覆盖接触区域而不是只抓住最显眼的接触点。五、三阶段推理从宏观到微观层层递进有了103个语义区域和分区顶点网格ContactPrompt还需要一套聪明的推理流程把这些工具串联起来引导AI从整体理解到精细预测。研究团队设计了三个依次递进的阶段像是侦探破案的三个步骤先了解案情全貌再锁定嫌疑区域最后深入细节取证。第零阶段是自由描述。AI只拿到原始图片和一份详细的提问清单被要求用自己的语言描述这张图片中手部与物体的互动情况。这份提问清单引导AI去思考手是正立的还是倒置的因为有些图片里手是从上往下伸的相机视角是从手心方向还是手背方向拍的哪些手指清晰可见哪些被物体遮挡握持方式是捏持、包握、还是侧接触如果是拿笔类物体笔是深入手心还是只在指尖间捏着物体中心距离手部中心有多远如果很远接触面积通常不会太大这个阶段产生的是一段自由格式的文字描述比如这只手正在从上方握住一根伸入油漆桶的细工具握持方式是拳握主要接触发生在手掌闭合的下半部分大拇指和被遮挡的掌侧区域可能提供主要支撑手心中部和腕部不在接触范围内……这段描述凝结了AI对整个互动场景的高层次理解。第一阶段是区域级接触预测。AI拿到图片、第零阶段的描述、以及一张标注了103个区域编号的手部多视角渲染图。渲染图同时展示了掌面和背面每个区域都有对应的数字编号像一张带有地名的地图。AI的任务是从103个区域里指出哪些区域可能发生了接触输出一个区域名称列表。这个阶段把推理空间从778个点缩减到若干个语义区域大大降低了后续精细预测的负担。第二阶段是顶点级密集预测。AI拿到图片、前两阶段的描述和区域预测结果、全套视觉提示包括区域图和网格图、以及只针对已选区域的座位表规格说明。AI的任务是对每个已选区域逐行逐格地填入0或1完成接触状态的精细标注。部分条件化机制在这里发挥作用只有第一阶段认为可能接触的区域才需要进行顶点级预测其余区域直接判定为不接触。这样不仅节省了计算资源还避免了对不相关区域的过度预测。最终三个阶段的输出被整合起来通过预先定义好的区域—顶点对应关系还原成对全部778个顶点的接触判断。这三阶段设计的优越性在对照实验中得到了清晰验证。只用第二阶段而跳过前两阶段时AI的准确率只有38.2%但召回率高达94.4%——这说明AI不加选择地把几乎所有顶点都判为接触像是宁可错杀也不放过实际上没有什么区分能力。加入第一阶段区域预测之后准确率大幅提升到46.0%召回率降至更合理的65.8%F1分数从0.513提升到0.497这里略有下降是因为精细预测还没有自由描述的辅助。加入第零阶段自由描述但去掉第一阶段时F1分数也只有0.435。只有完整的三阶段流程才能实现最佳的F1分数0.526同时在准确率和召回率之间取得良好平衡。六、与最强对手的正面较量ContactPrompt的最终考场是一个叫做MOWMethods for Outdoor Wrestling实际上是野外手物重建数据集的缩写的测试集包含92个真实世界中的手部互动场景评判标准是顶点级别的准确率、召回率和F1分数。对手阵容相当强劲。POSA是一个通过变分自编码器学习身体与场景接触概率的模型BSTRO用了Transformer架构就是驱动现代大语言模型的核心技术之一来捕捉手部与场景的非局部关系DECO用了跨注意力机制融合场景上下文HACO由ContactPrompt的同一位作者之前的工作专门针对手部接触中的类别不平衡和空间不平衡问题做了优化训练数据来自14个数据集的65.5万张图片。测试结果是POSA的F1分数为0.101BSTRO为0.112DECO为0.197HACO为0.522而ContactPrompt达到了0.526。ContactPrompt以最高的F1分数和最高的召回率0.710远超HACO的0.607排在第一位尽管它的准确率0.473略低于HACO0.525。这意味着ContactPrompt在发现接触区域的完整性上有突出优势略微代价是会多标一些实际上没接触的顶点。定性分析即直观地看预测结果图也印证了这种优势。在一个捏持互动的例子里ContactPrompt准确预测了拇指、食指和中指指尖的接触而HACO过度预测了指根接触DECO预测了过多的掌心接触BSTRO完全没有检测到接触。在用鼠标的例子里ContactPrompt恢复了手指和手心的接触而HACO遗漏了手心区域DECO预测为无接触BSTRO的手指接触不完整。在握笔的例子里ContactPrompt正确识别出了食指和中指之间支撑铅笔的区域而这个区域正是其他方法最容易遗漏的。七、用哪款AI最合适不同选择各有侧重ContactPrompt的框架并不绑定某一款特定的AI模型研究团队还测试了多款主流大模型的表现。GPT-5.5在综合表现上最强F1分数0.526召回率0.710但每个样本的输出词语较多平均3588个词对应推理费用约0.108美元。Claude Sonnet 4.6是效率与准确率之间的均衡选择F1分数0.488但平均只输出1978个词费用仅0.067美元适合对成本敏感的应用场景。Claude Opus 4.7在准确率上最高0.506但召回率和F1分数不如GPT-5.5。GPT-5.4则以最低的费用0.024美元/样本输出词数仅1567个提供了0.487的F1分数是追求极致性价比的选项。这些数据说明ContactPrompt框架本身是通用的使用者可以根据实际需求在准确性和成本之间灵活权衡。研究团队在结尾也坦诚地指出了这套方案的局限依赖大型语言模型API意味着推理成本高于专用模型而且模型行为可能随API更新而改变影响结果的可复现性。此外这套系统每次只能处理一张图片不能批量并行处理速度上有所限制。说到底ContactPrompt做了一件反常识的事它没有去收集更多专门的训练数据而是换了一种与AI沟通的方式就让预测效果超越了用几十万张数据训练出来的专业模型。这背后的道理其实并不神秘大型语言模型已经通过训练积累了海量的关于人如何使用手、物体如何被握持的常识知识缺的只是一套能激活这些知识的提问框架。ContactPrompt的本质是一套精心设计的问题清单和作答模板让AI把自己已有的理解转化成精确的接触预测。这种思路对整个计算机视觉领域都有启发意义在数据标注成本高昂、某些细分任务难以获取大量训练数据的场景下能否通过更聪明的提示工程直接榨取大型基础模型中已有的知识ContactPrompt给出了一个肯定的回答。这对于机器人抓取、AR/VR手部追踪、手功能康复评估等应用来说都意味着可以用更低的成本构建更好的系统。当然这套方案在涉及人体监控的场景中存在潜在的滥用风险研究团队也明确表示不建议将其用于此类用途。有兴趣深入研究的读者可以通过arXiv:2605.05886找到完整的论文其中附录部分还提供了三个阶段完整的提示词文本是非常珍贵的工程参考资料。---QAQ1ContactPrompt为什么不需要训练数据就能识别手部接触AContactPrompt利用的是GPT-5.5这类大型多模态语言模型在预训练阶段已经积累的海量视觉和语言知识。这些模型在训练时见过大量关于人手握持物体的图片和文字描述已经懂得握笔时拇指和食指会接触这类常识。ContactPrompt通过精心设计的三阶段提问流程和手部区域划分框架把这些已有知识激活并转化为精确的接触预测因此不需要额外收集手部接触的专项标注数据。Q2ContactPrompt的103个手部区域是怎么划分出来的A研究团队首先按照手部朝向把整只手分成掌面、背面、桡侧拇指方向和尺侧小指方向四个大面。然后在每个大面内进一步细分掌面分出指根、手掌近中远三段、大鱼际、腕部等手背分出指关节和各手指掌骨段每根手指分成近中远三节每节再按朝向细分指尖单独标出虎口区域也单独划出。最终形成103个有明确功能含义和名称的区域这些名称可以直接作为语言描述传递给AI模型。Q3分区顶点网格具体是什么结构A对于每个手部区域研究团队把区域内的顶点按照从指尖到腕部的方向排成若干行每行内的顶点从左到右排列以图像视角为准。这样每个区域的顶点就形成一个类似表格的二维结构类似座位表。AI预测时只需对每个格子填0不接触或1接触不需要知道每个格子的三维坐标。预定义的行数和每行顶点数作为规格说明提供给AIAI必须严格按照这个规格输出保证结果能被准确地映射回MANO模型的778个顶点上。

相关新闻