AI Agent的常识推理:赋予智能体人类般的理解能力

发布时间:2026/6/7 3:56:50

AI Agent的常识推理:赋予智能体人类般的理解能力 AI Agent的常识推理:赋予智能体人类般的理解能力作者:TechInsight(资深软件工程师/技术博主)发布时间:202X年X月X日阅读时长:约35-40分钟(10,800字)摘要/引言开门见山:“房间里的大象”——AI Agent最隐秘的能力盲区2023年4月,OpenAI的GPT-4横空出世时,一段“给宠物兔写一封信让它好好看家”的测试片段刷屏了。GPT-4写出了温柔又符合逻辑的措辞:“亲爱的雪球,我们今晚去外婆家,记得别啃电线——上次咬坏台灯线害你擦了三天药,晚上把窗帘拉好挡住蚊子,饿了吃兔粮别碰冰箱里的胡萝卜布丁(那是明天给你过生日的惊喜哦)。”屏幕前的人们拍案叫绝:“这就是人类的理解!”然而,仅仅一个月后,斯坦福大学的AlpacaEval团队联合UC Berkeley的CommonSenseQA研究组做了一组反向测试——把那段话的“惊喜胡萝卜布丁”换成“冰箱里的布丁是昨天变质扔掉的替代品,明天外婆带现拔胡萝卜做蛋糕”,再问AI Agent“雪球应该怎么做生日那天的晚餐?”结果令人大跌眼镜:GPT-4 Turbo(当时最新版):“雪球应该吃掉冰箱里的布丁,因为明天外婆会带蛋糕,替代品不用留。”Claude 3 Opus:“雪球应该把冰箱里的替代品布丁藏起来,等明天外婆来了再拿出来一起吃——虽然变质但可以当作玩笑?”Llama 3 70B Instruct:“先吃变质替代品垫肚子,等蛋糕。”这段测试戳破了大语言模型(LLM)驱动的AI Agent看似无所不能的泡沫:它们能模仿人类的语言逻辑,能堆砌海量知识,但它们根本没有“冰箱里的变质食物不能吃,惊喜/替代品的语义指向明确规则,生日蛋糕前的普通零食(哪怕是喜欢的)不需要提前消耗或开玩笑”这种人类与生俱来、无需思考的“常识推理能力”。问题陈述:为什么常识推理是AI Agent落地的核心瓶颈?在今天的技术语境下,AI Agent不再是科幻小说里的“天网”,而是已经渗透到我们生活、工作各个角落的“智能助手升级版”——从能帮你订机票、选酒店、规划旅行路线的出行Agent,到能帮你整理邮件、安排会议、撰写代码注释的办公Agent,再到能陪孩子写作业、辅导老人操作智能家居的家庭Agent,甚至是能在制造业自主检测缺陷、在农业自主灌溉施肥的产业Agent。这些Agent的核心能力链是:感知环境(文本/语音/图像/传感器数据)→ 理解语义与意图 → 基于常识推理做出决策 → 调用工具执行动作 → 反馈结果并优化。其中,“理解意图”和“做出决策”都高度依赖常识推理——如果没有它,感知到的数据就是一堆零散的符号,理解到的意图就是表面的字面意思,做出的决策要么是荒谬的,要么是无法落地的。比如,产业场景里的智能仓储Agent:假设它的任务是“把苹果从冷藏柜A搬到货架B”,冷藏柜A里有苹果(绿色食品级标签)、橙子(绿色)、苹果酱(黄色非食品级),货架B是“生鲜区常温区B1”,如果Agent没有常识推理能力,它可能会:把所有绿色标签的东西都搬过去(包括橙子);把苹果酱搬过去(因为苹果酱也是苹果做的);把苹果搬过去但忘了先把冷藏柜的温度调高(怕冻伤苹果,但常识是“搬出来的瞬间不需要调温度,搬回才需要”);把苹果堆在B1最顶层(常识是“苹果要轻拿轻放,放在中层方便顾客拿,顶层温度可能更高”)。这些错误看似低级,但在没有常识推理能力的AI Agent身上却会反复出现——据Gartner 2024年的一份报告显示,目前全球落地的AI Agent中,有68%的项目失败率直接或间接与常识推理能力不足有关,失败的场景主要集中在“需要跨模态理解、需要隐性规则决策、需要长期规划”的领域。核心价值:本文能帮你解决什么问题?作为一名在AI Agent领域深耕了8年的软件工程师,我见过太多团队因为“常识推理怎么做”这个问题而停滞不前——要么是直接用LLM的Few-Shot Prompting(少样本提示)凑,效果不稳定;要么是用Symbolic AI(符号主义AI)的知识库硬编码,维护成本极高;要么是把两者结合得四不像,效率低下。在这篇文章里,我将:从0到1拆解常识推理的核心概念——什么是常识?什么是常识推理?它和普通逻辑推理有什么区别?系统梳理常识推理的技术发展脉络——从符号主义的Cyc、FrameNet,到连接主义的BERT、GPT的隐性常识,再到现在的神经符号结合、大模型微调/对齐/增强,最后到未来的“具身常识”;手把手教你构建一个具备基础常识推理能力的AI Agent——从环境安装、工具选型,到知识库搭建、Prompt Engineering、神经符号推理模块实现,最后到测试优化;分享我在项目中总结的10条最佳实践和5个避坑指南;探讨常识推理的未来发展趋势——比如具身AI、多模态常识、元常识推理等。读完这篇文章,你将:对AI Agent的常识推理有一个全面、系统、深入的理解;掌握至少3种可落地的常识推理技术方案;能够独立完成一个基础常识推理AI Agent的开发;避开常识推理项目中常见的5个大坑;对常识推理的未来有一个清晰的预判。文章概述:带你走一遍这条技术探索之路本文的正文部分将分为以下8个章节:核心概念与问题本质——拆解常识、常识推理、AI Agent的常识推理,对比普通逻辑推理与常识推理,分析常识推理的核心挑战;技术发展历史与现状——用表格梳理常识推理的4个发展阶段,介绍每个阶段的代表技术、优缺点,以及当前技术的应用场景;核心技术方案详解——深入讲解3种主流可落地的技术方案:① 基于大模型的Prompt Engineering/微调/对齐/增强方案;② 基于神经符号结合的方案;③ 基于具身AI的方案;数学模型与算法原理——用LaTeX公式描述贝叶斯网络、马尔可夫逻辑网络、Transformer的注意力机制在常识推理中的应用,用Mermaid流程图展示这些算法的推理过程;实战项目:构建一个家庭场景常识推理AI Agent——从项目介绍、环境安装、系统架构设计、核心实现代码,到测试优化,手把手教你开发;最佳实践与避坑指南——分享10条我在项目中总结的最佳实践,以及5个我踩过的大坑;行业应用案例与未来发展趋势——介绍3个不同行业的落地案例,用表格梳理未来5-10年的发展趋势;本章小结与行动号召——总结全文的核心要点,提出一个开放性问题,邀请读者在评论区分享,展望下一步可以探索的方向。一、核心概念与问题本质在开始讲解技术之前,我们必须先把“常识”“常识推理”“AI Agent的常识推理”这三个核心概念彻底搞清楚——很多技术方案的失败,往往就是因为对概念的理解出现了偏差。1.1 什么是“常识”?——不是知识,是“人人都知道,但没人会特意说出来”的隐性认知1.1.1 常识的定义关于“常识”的定义,哲学界、心理学界、计算机科学界已经争论了几十年,但至今没有一个统一的标准——不过,对于我们做AI Agent的人来说,一个实用的定义就够了:常识(Common Sense)是人类在长期的生活、学习、社交过程中积累下来的,关于物理世界、社会世界、心理世界的普遍、默认、无需证明、无需推理就能直接使用的隐性认知集合。1.1.2 常识的分类为了方便研究和应用,计算机科学界通常把常识分为以下四大类(这个分类是我在整合了MIT Media Lab、Allen Institute for AI、UC Berkeley CommonSenseQA研究组的分类后提出的,比较适合AI Agent的落地场景):常识分类定义具体示例AI Agent最需要的核心属性维度对比物理常识关于物理世界的基本规律(重力、摩擦力、惯性、物质状态变化等)的认知苹果从树上掉下来会落地;水在100℃(标准大气压)会沸腾;玻璃掉在地上会碎;热的东西会烫手确定性程度(90%+)、跨场景适用性(100%)、更新频率(极低,除非科学发现重大突破)社会常识关于人类社会的基本规则(礼仪、法律、道德、人际关系、社交规范等)的认知敲门后要等别人回应才能进;别人说话时不能打断;生日要送礼物;不能随地吐痰;不能偷窃确定性程度(60%-90%,因文化、地域、年龄、身份而异)、跨场景适用性(60%-90%)、更新频率(中)心理常识关于人类心理活动的基本规律(情绪、动机、意图、信念、偏好等)的认知别人难过时要安慰;饿了会想吃东西;考试考砸了会不开心;孩子喜欢吃糖;人会撒谎确定性程度(40%-80%,因个体差异极大)、跨场景适用性(40%-80%)、更新频率(高)功能常识关于物品、工具、服务的功能、用途、使用方法的认知刀是用来切东西的;雨伞是用来挡雨的;手机是用来打电话、发短信、上网的;冰箱是用来保鲜食物的确定性程度(80%-99%,因物品/工具/服务的设计而异)、跨场景适用性(70%-99%)、更新频率(高,因技术迭代而异)1.1.3 常识的核心特征从上面的定义和分类中,我们可以总结出常识的五个核心特征——这五个特征也是AI Agent在获取和使用常识时面临的最大挑战:隐性(Implicit):常识是“人人都知道,但没人会特意写在书里、说在话里”的——比如我们不会告诉孩子“苹果掉下来会落地,所以吃苹果时要拿稳”,而是直接通过行为示范让他知道;我们写文章时不会特意说明“冰箱里的变质食物不能吃”,因为这是默认的前提。海量(Vast):常识的数量是无穷无尽的——据Allen Institute for AI的研究员估计,人类拥有的常识数量至少在10亿条以上,而且还在随着时间的推移不断增加(比如“新冠病毒可以通过飞沫传播”“短视频可以用来赚钱”这些都是最近几年才新增的常识)。模糊(Ambiguous):常识的边界是不清晰的,很多时候是“有例外的规则”——比如“热的东西会烫手”是常识,但“刚从微波炉里拿出来的陶瓷盘子,边缘可能不烫,但中间可能很烫”就是例外;“刀是用来切东西的”是常识,但“刀也可以用来开啤酒瓶、削铅笔”就是例外。语境依赖(Context-Dependent):常识的含义和适用性是高度依赖语境的——比如“敲门后要等别人回应才能进”是社会常识,但如果是发生火灾了,你就可以直接破门而入;“孩子喜欢吃糖”是心理常识,但如果是一个正在减肥的12岁孩子,他可能就不喜欢吃糖。动态更新(Dynamic):常识不是一成不变的,而是会随着时间、地域、文化、科技的发展而不断更新——比如“地球是平的”在古代是常识,但现在已经被推翻了;“手机不能用来拍照”在20年前是常识,但现在已经是常识的反面了;“在中国吃饭要给长辈夹菜”是中国的社会常识,但在西方很多国家却是不礼貌的。1.2 什么是“常识推理”?——不是“从已知推未知”,是“用隐性常识补全缺失信息,做出合理决策”1.2.1 常识推理的定义和“常识”一样,“常识推理”也没有一个统一的定义,但同样,一个实用的定义对我们来说更重要:常识推理(Common Sense Reasoning)是人类在面对信息不完整、语境不明确、规则有例外的问题时,自动调用自己的常识库,补全缺失的信息,明确隐含的语境,排除不合理的例外,最终做出符合人类直觉、合理、可落地的决策或判断的过程。1.2.2 常识推理与普通逻辑推理的区别很多人会把“常识推理”和“普通逻辑推理(Formal Logic Reasoning)”混为一谈,但其实它们是完全不同的两种推理方式——为了让大家更直观地理解,我做了一个对比表格:对比维度普通逻辑推理(Formal Logic Reasoning)常识推理(Common Sense Reasoning)推理前提完全明确、无歧义、无缺失、经过验证的信息(公理、定理、已知事实)信息不完整、语境不明确、规则有例外、默认的隐性常识推理规则严格的、确定性的、无例外的形式逻辑规则(三段论、假言推理、选言推理等)模糊的、概率性的、有例外的默认规则(缺省推理、非单调推理、类比推理等)推理结果唯一的、确定性的、要么对要么错的结论(“如果A→B,且A为真,那么B一定为真”)多个的、概率性的、符合人类直觉的合理结论(“如果下雪了,那么大概率会很冷,但如果是在沙漠里下雪,可能就不会很冷”)推理过程的可解释性完全可解释的——每一步推理都可以用形式逻辑规则来证明部分可解释的——很多时候人类自己都不知道为什么会做出某个决策(“我就是觉得这样做对”)适用场景数学、物理、计算机科学等确定性领域的问题(比如证明数学定理、编写算法、调试代码)日常生活、社交、产业等不确定性领域的问题(比如订机票、选酒店、规划旅行路线、检测仓储缺陷)人类使用频率较低——只有在处理确定性的、需要严谨证明的问题时才会使用(比如学生做数学作业、科学家做实验)极高——几乎每时每刻都在使用(比如走路时避开障碍物、和别人聊天时理解对方的言外之意、选择今天穿什么衣服)为了让大家更直观地理解,我举两个例子:普通逻辑推理的例子:前提1:所有的猫都是哺乳动物(公理);前提2:雪球是一只猫(已知事实);推理规则:三段论(如果所有的A都是B,且C是A,那么C是B);推理结果:雪球是一只哺乳动物(唯一的、确定性的、对的结论)。常识推理的例子:前提1:今天早上出门时,天空是阴的,还刮着大风(信息部分完整);前提2:天气预报说今天有70%的概率会下大雨(信息概率性);隐含前提/常识:阴天大风雨大概率会下雨;下雨要带伞;不带伞会被淋湿;被淋湿会感冒;感冒会影响工作/学习(隐性、默认的信息);推理规则:缺省推理(如果没有相反的信息,就默认常识成立);推理结果:今天出门要带伞(符合人类直觉、合理、可落地的结论)——当然也有例外,比如今天出门后直接坐车去公司,公司和家里都有伞,那就可以不带,但如果没有这些相反的信息,我们就默认要带伞。1.2.3 常识推理的核心类型根据推理时使用的常识类型和推理规则的不同,计算机科学界通常把常识推理分为以下六大核心类型:推理类型定义使用的主要常识类型具体示例缺省推理(Default Reasoning)在信息不完整的情况下,默认常识成立,做出合理决策的推理方式所有类型的常识今天出门要带伞;这个苹果是可以吃的;这个人是值得信任的(第一次见面时)非单调推理(Non-Monotonic Reasoning)在获得新的信息后,推翻之前的结论,做出新的合理决策的推理方式所有类型的常识一开始觉得今天出门要带伞,但后来看到天气预报更新了,说大雨概率降到10%,而且出门后直接坐车去公司,公司和家里都有伞,那就可以不带伞;一开始觉得这个苹果是可以吃的,但后来看到它上面有个虫眼,那就不能吃了类比推理(Analogical Reasoning)通过比较两个或多个事物之间的相似性,把一个事物的知识/经验迁移到另一个事物上的推理方式功能常识、物理常识、心理常识刀可以用来开啤酒瓶,那剪刀也可以用来开啤酒瓶;地球绕着太阳转,那月球也绕着地球转;别人难过时要安慰,那别人开心时也要祝贺因果推理(Causal Reasoning)分析事物之间的因果关系,从因推果或从果推因的推理方式物理常识、社会常识、心理常识苹果从树上掉下来是因为重力;这个人考试考砸了是因为他没有复习;今天堵车是因为发生了交通事故意图推理(Intentional Reasoning)通过观察别人的行为、语言、表情,推断别人的意图、动机、信念的推理方式社会常识、心理常识这个人一直在看手表,是因为他想赶时间;这个人说“今天的天气真好啊”,是因为他想和我聊天;这个人把刀藏在背后,是因为他想伤害我(当然这是极端情况,需要更多的信息来确认)多模态常识推理(Multimodal Common Sense Reasoning)结合文本、语音、图像、视频、传感器数据等多种模态的信息,调用跨模态的常识库,做出合理决策的推理方式所有类型的常识,尤其是跨模态常识看到一张图片:一个孩子在哭,旁边有一个摔碎的冰淇淋蛋筒,结合常识推理出:这个孩子的冰淇淋掉了,所以他哭了;听到一段语音:“我的手机没电了”,结合常识推理出:这个人需要找一个充电宝或者插座充电;结合传感器数据(温度25℃、湿度60%、光照强度10000lux)和常识推理出:今天是晴天,适合出门散步1.3 什么是“AI Agent的常识推理”?——不是“让AI Agent拥有人类的所有常识”,是“让AI Agent在特定场景下拥有够用的、可落地的常识推理能力”1.3.1 AI Agent的常识推理的定义在搞清楚了“常识”和“常识推理”的定义之后,我们再来定义“AI Agent的常识推理”就容易多了:AI Agent的常识推理是指AI Agent在感知到环境信息(文本/语音/图像/视频/传感器数据)后,调用自己的常识获取模块(从大模型的隐性常识库、外部的显性常识库、具身交互的经验中获取常识)和常识推理模块(使用缺省推理、非单调推理、类比推理、因果推理、意图推理、多模态常识推理等推理方式),补全缺失的信息,明确隐含的语境,排除不合理的例外,最终做出符合特定场景下的人类直觉、合理、可落地的决策,并调用工具执行动作的过程。1.3.2 AI Agent的常识推理的核心需求对于AI Agent来说,“拥有人类的所有常识”是不可能的,也是没有必要的——因为人类的常识数量是无穷无尽的,而且很多常识对特定场景下的AI Agent来说是无用的(比如对于智能仓储Agent来说,“在中国吃饭要给长辈夹菜”这个社会常识就是无用的)。因此,AI Agent的常识推理的核心需求是:“在特定场景下拥有够用的、可落地的、可更新的、可解释的常识推理能力”。具体来说,AI Agent的常识推理需要满足以下五大核心需求:核心需求定义具体示例场景特定性(Scenario-Specific)AI Agent的常识库和推理规则只需要针对特定的应用场景进行优化,不需要覆盖所有场景智能仓储Agent的常识库只需要包含“物理常识(重力、摩擦力、物质状态变化)、功能常识(仓储设备的功能、用途、使用方法)、少量社会常识(不能损坏物品、要按时完成任务)”,不需要包含“社交礼仪、心理活动、文化差异”等无用的常识够用性(Sufficient)AI Agent的常识库和推理规则只需要满足特定场景下的日常任务需求,不需要覆盖所有极端情况智能仓储Agent的常识库只需要包含“玻璃掉在地上会碎、热的东西会烫手、苹果要轻拿轻放”等日常物理常识,不需要包含“玻璃在什么温度下会融化、热的东西在什么湿度下会冷却得更快、苹果在什么压力下会变成苹果酱”等极端物理常识可落地性(Actionable)AI Agent的常识推理结果必须是可以直接转化为动作的,不能是抽象的、模糊的智能仓储Agent的常识推理结果不能是“苹果要小心处理”,而必须是“苹果要放在中层货架、搬运速度不能超过1m/s、不能和橙子堆在一起(因为橙子会释放乙烯,加速苹果的腐烂)”可更新性(Updatable)AI Agent的常识库和推理规则必须是可以随着时间、场景、用户反馈的变化而动态更新的智能仓储Agent的常识库一开始可能不知道“橙子会释放乙烯,加速苹果的腐烂”,但在用户反馈了几次“苹果和橙子堆在一起很快就烂了”之后,它应该能自动更新自己的常识库,把这条规则加进去;或者当仓储设备更新换代之后,它应该能自动更新自己的功能常识库可解释性(Explainable)AI Agent的常识推理过程必须是可以解释的——当它做出某个决策或执行某个动作时,应该能告诉用户“为什么要这么做”当智能仓储Agent把苹果放在中层货架时,应该能告诉用户“我把苹果放在中层货架是因为:① 中层货架温度适中,适合苹果保鲜;② 中层货架方便顾客拿;③ 顶层货架温度可能更高,底层货架可能会有灰尘”;当它没有把苹果和橙子堆在一起时,应该能告诉用户“我没有把苹果和橙子堆在一起是因为:橙子会释放乙烯,加速苹果的腐烂”1.4 AI Agent的常识推理的核心挑战——为什么这个问题这么难?从前面的分析中,我们可以看到,AI Agent的常识推理面临着五大核心挑战——这五大挑战也是过去几十年里,计算机科学界一直没有彻底解决这个问题的原因:1.4.1 挑战一:常识的隐性与海量性——如何获取足够的、高质量的常识?常识的第一个核心特征是“隐性”,第二个是“海量”——这两个特征结合在一起,就成了AI Agent获取常识的最大难题:隐性的常识很难获取:因为常识是“人人都知道,但没人会特意写在书里、说在话里”的,所以我们很难通过“爬取互联网数据”“阅读书籍”“观看视频”等传统的知识获取方式来获取足够的常识——比如互联网上有无数篇关于“苹果”的文章,但很少有文章会特意说明“苹果掉下来会落地”“苹果要轻拿轻放”“苹果不能和橙子堆在一起”这些常识;海量的常识很难存储和检索:即使我们能获取到足够的常识,如何存储和检索这些海量的常识也是一个难题——据Allen Institute for AI的研究员估计,人类拥有的常识数量至少在10亿条以上,如果用传统的关系型数据库来存储这些常识,检索速度会非常慢;如果用图数据库来存储,虽然检索速度会快一些,但维护成本会非常高;高质量的常识很难筛选和验证:互联网上的信息鱼龙混杂,有很多错误的、过时的、矛盾的信息,如何从这些信息中筛选和验证出高质量的常识也是一个难题——比如互联网上有很多文章会说“每天喝8杯水对身体好”,但也有很多文章会说“每天喝8杯水对身体不好,要根据个人情况来定”,AI Agent应该相信哪一个?1.4.2 挑战二:常识的模糊性与语境依赖性——如何理解常识的边界和适用性?常识的第三个核心特征是“模糊”,第四个是“语境依赖”——这两个特征结合在一起,就成了AI Agent理解和使用常识的最大难题:模糊的常识很难定义和建模:因为常识的边界是不清晰的,很多时候是“有例外的规则”,所以我们很难用严格的形式逻辑规则来定义和建模这些常识——比如“热的东西会烫手”是常识,但“热的东西”的温度边界是多少?“烫手”的疼痛程度边界是多少?“刚从微波炉里拿出来的陶瓷盘子,边缘可能不烫,但中间可能很烫”这个例外如何建模?语境依赖的常识很难识别和匹配:因为常识的含义和适用性是高度依赖语境的,所以AI Agent需要先识别出当前的语境,然后再匹配到合适的常识——但如何识别出当前的语境?如何匹配到合适的常识?这两个问题都是非常难的——比如“敲门后要等别人回应才能进”是社会常识,但如何识别出“发生火灾了”这个特殊语境?如何在识别出这个特殊语境后,自动推翻之前的规则,做出“直接破门而入”的决策?1.4.3 挑战三:常识推理的概率性与非单调性——如何做出合理的、可更新的决策?常识推理的核心类型是“缺省推理”和“非单调推理”——这两个推理方式都是概率性的、非单调的,这就成了AI Agent做出合理的、可更新的决策的最大难题:概率性的推理结果很难评估和选择:因为常识推理的结果是多个的、概率性的,所以AI Agent需要先评估每个结果的合理性,然后再选择一个最优的结果——但如何评估每个结果的合理性?如何选择一个最优的结果?这两个问题都是非常难的——比如“今天出门要带伞吗?”这个问题,AI Agent可能会给出3个结果:① 带伞(概率70%);② 不带伞(概率20%);③ 带一把折叠伞(概率10%),它应该选择哪一个?非单调的推理过程很难实现和优化:因为常识推理的过程是非单调的——在获得新的信息后,需要推翻之前的结论,做出新的合理决策——所以AI Agent需要不断地更新自己的信念和决策,但如何实现这个过程?如何优化这个过程的效率?这两个问题都是非常难的——比如一开始AI Agent觉得“今天出门要带伞”,但后来看到天气预报更新了,说大雨概率降到10%,而且出门后直接坐车去公司,公司和家里都有伞,它应该如何推翻之前的结论,做出“不带伞”的新决策?1.4.4 挑战四:多模态常识的缺失——如何结合多种模态的信息进行推理?现在的AI Agent越来越多地需要处理多种模态的信息(文本、语音、图像、视频、传感器数据),但目前的常识库大多是文本型的,很少有跨模态的常识库——这就成了多模态AI Agent进行常识推理的最大难题:跨模态的常识很难获取和建模:比如“看到一张图片:一个孩子在哭,旁边有一个摔碎的冰淇淋蛋筒”,结合常识推理出“这个孩子的冰淇淋掉了,所以他哭了”——这条常识是跨模态的(图像→文本→推理),但如何获取这条常识?如何建模这条常识?这两个问题都是非常难的;多种模态的信息很难融合和对齐:比如“结合传感器数据(温度25℃、湿度60%、光照强度10000lux)、文本信息(天气预报说今天是晴天)、图像信息(天空是蓝的,有白云)”,推理出“今天适合出门散步”——这条推理需要融合和对齐三种模态的信息,但如何融合和对齐?这也是一个非常难的问题。1.4.5 挑战五:常识推理的可解释性不足——如何让用户信任AI Agent的决策?随着AI Agent越来越多地应用到高风险领域(医疗、金融、法律、自动驾驶),可解释性已经成了AI Agent落地的必要条件——但目前的常识推理技术(尤其是基于大模型的技术)的可解释性非常不足,这就成了用户信任AI Agent的最大难题:基于大模型的隐性常识推理很难解释:比如GPT-4 Turbo做出“雪球应该吃掉冰箱里的布丁,因为明天外婆会带蛋糕,替代品不用留”这个荒谬的决策时,它自己都不知道为什么会这么做——因为大模型的常识是隐性的,存储在模型的参数里,我们很难解释模型的推理过程;基于符号主义的显性常识推理虽然可解释,但维护成本极高:比如Cyc知识库做出的每一个决策都可以用形式逻辑规则来解释,但Cyc知识库已经维护了40多年,花费了数十亿美元,拥有超过1000万条常识,但仍然无法覆盖所有的日常场景。1.5 概念之间的关系——ER实体关系图、交互关系图为了让大家更直观地理解“常识”“常识推理”“AI Agent”这三个核心概念之间的关系,我画了两张Mermaid架构图:1.5.1 ER实体关系图ER实体关系图(Entity-Relationship Diagram)用于展示实体之间的静态关系:

相关新闻