
2026年以来“Agent”正在加速从学术概念走向产业落地而诸葛鸣晨已在这条赛道上深耕数年。图注诸葛鸣晨他的博士生涯始于论文 Mindstorm该工作系统描绘了智能体社会的整体图景及其潜在经济形态。此后他又以共同第一作者身份主导完成了 MetaGPT使其迅速成为近年来智能体编程领域最具代表性、也最具影响力的现象级工作之一与此同时他也是 OpenHands原 OpenDevin的早期核心贡献者。围绕 Agent 系统方法论他进一步发展出 GPTSwarm将多智能体建模为可优化的图graph为 Agent 的系统化构造与演化开辟了新路径他提出的 Agent-as-a-Judge则切中了长时程任务自动评估这一关键瓶颈为持续迭代优化提供了核心机制。尤其值得一提的是早在 2023 年他便已在 MetaGPT 附录中明确指出“recursive self-improvement” 与 “learning from experience” 将构成 Agents 下一阶段发展的核心方向显示出极强的前瞻判断力。这位师从 Jürgen Schmidhuber 的 KAUST 博士生早在 2021 年就将博士研究锚定为多模态 Agent。回看他的路径核心是一件事更早判断方向并把判断落成研究。Agent 的未来究竟是怎样的图景长时程任务中智能体该如何实现自我评估被调侃为“老顽童”的导师又给他带来了怎样的科研启迪在这篇深度专访中他将围绕 Agent 技术演进的关键路径展开分享深入讨论智能体社会、智能体经济、自动化评估与递归自我改进RSIRecursive Self-Improvement以及神经计算机NCNeural Computer。采访编辑梦佳 迪阳要点速览研究起点与选择2021年末将博士课题锁定为多模态智能体Multimodal Agents并始终认为Coding Agent是最易落地、最具商业价值的方向。Agent进化的核心引擎他判断下一阶段突破将集中在 recursive self-improvementAgent-as-a-Judge 则为长时程任务提供自动评估信号。开源实践深度参与 MetaGPT用角色分工与 SOP 规范化破解大模型幻觉与上下文瓶颈提出 GPTSwarm将 Agent 创新性地抽象为图结构让智能体的构建与优化等价于对节点Node与边Edge的系统性求解。“现代AI之父”的言传身教导师 Jürgen Schmidhuber 不仅在学术写作上严谨严格更在合作项目中亲自撰写“Economy of Mind”章节为其注入了“Agent 社会将由经济规律驱动”的超前洞察。未来方向1即将推出 “Neural Computer”。2Agent 将从代码编写全面渗透至日常全场景始终坚信人类具备强的适应力与创造性越早拥抱AI的收益会越大。智源专访栏目意在展现行业顶尖技术研究者和创业者的研究经历和故事记录技术世界的嬗变激发当代AI从业者的创新思维启迪认知、关注突破性进展为行业注入灵感光芒。本次专访为总第36期。简介诸葛鸣晨是沙特阿卜杜拉国王科技大学KAUST的计算机科学博士生青源会成员师从被誉为“LSTM之父”的Jürgen Schmidhuber教授。他的研究领域集中于大语言模型和多模态智能体。他曾在Meta AI实习博士就读前曾在微软、阿联酋起源人工智能研究院和阿里巴巴等知名机构任职。他以第一作者身份在ICML、ICLR、CVPR、TPAMI等顶级会议和期刊上发表了多篇论文荣获NeurIPS研讨会最佳论文奖EMNLP杰出论文候选CVPR杰出审稿人等奖项论文累计被引用近5500次。最近2年他积极参与的开源项目共取得约130K Stars。此外他近几年智能体的研究工作在顶级ML会议共获得6次口头报告Oral Presentation。他发起并组织了ICLR 2026递归自我改进RSI研讨会同时担任COLM 2026与CAIS 2026的领域主席Area Chair。01于浪潮未至时落子研究课题和个人选择我不太在乎agent最终的呈现形式但我非常喜欢这个课题未来大家都会从multimodal agent中受益。Q1博士就读前你曾在微软、阿联酋起源人工智能研究院等机构围绕多模态预训练和大语言模型开展研究是什么契机让您在2021年末申请博士时将研究方向锁定在多模态智能体领域诸葛鸣晨那是2020年确实我在读博之前做的是多模态预训练 VLP是受到VLBERT、ViLBERT等工作的启发但当时国内做这块比较多的主要是微软和阿里。在阿里碰到了对前沿课题非常感兴趣的manager。尽管多模态在那个时间点是作为区别于NLP和CV的独立课题存在的但我认为未来任何子topics都会围绕“多模态”展开的。在阿里的时期我在CVPR2021发表了名为 Kaleido-BERT的工作。尽管当时整个CVPR 2021多模态预训练的工作似乎就5篇左右我觉得这个 topic 未来会很火热。但当时大多数相关工作都是基于BERT等工作参数量远远不够所以大多停留在基础的多模态Understanding具体任务基本是图片描述、图文相互检索、以及分类应用主要以拿到好的embeddings来服务搜推广距离具备推理和规划能力的 Agent 还很远。所以离 reasoning推理及真正能够做 planning规划还差得很远。所以我申请博士时研究提案就叫“多模态智能体”Multimodal Agent希望现有的模型能够跟真实环境进行交互。我对agent的最初想象不完全来自论文也来自几部科幻电影比如a. 《生化危机》里以全息影像现身的红皇后背后是一个真正在决策、在控制整个设施的AIb. 《机械姬》让我开始认真思考智能体的主体性和具身化c. 《头号玩家》则让我想象agent在数字世界里会以什么方式存在和演化。图注电影《生化危机》所以我当时写 proposal 的时候就说其实有一个很明确的想法我并不太在意 Agent 最终会以什么形式出现但会考虑哪个方向更能直接产生影响力。我非常喜欢这个课题并且觉得未来它一定能够得到广泛的应用大家都会从 multimodal agent 中受益。Q2在众多AI细分领域中Agent领域兼具学术深度与工程落地潜力您认为这个领域最吸引您的核心特质是什么有没有某个具体的研究场景或问题让您当时就判断一定值得投入研究诸葛鸣晨说实话 对于PhD而言真正可用的窗口并不宽裕所以更需要选择那些长期绕不开的问题。Agent的本质就是让日常或非日常任务自动化。如果坚信这一点那么未来可能很多研究方向最终都会绕不开 agents。最开始ChatGPT 只能写20到100行代码而且你可能还得自己去编译、去修改。并且一开始基础模型的context window只有2k到4k也就是远远不够用来理解一个repo级别的代码的。但那时候我就觉得 Agent 在这个领域能够产生非常大的价值。作为研究课题当时也有足够多低垂果实。比如ICLR 2024的Oral Papers关于Coding Agents的唯二工作一篇是MetaGPT另一篇是SWE-Bench在后面的影响力都挺大的。图注ICLR 2024的Oral PapersQ32021年放弃大厂的offergap之后申请博士您认为这个选择背后除了对科研的热爱还有哪些关键考量诸葛鸣晨和我同期去阿里实习的人我认识的其他10人都加入了阿里或者其他大厂我反而成了少数派。因为那个时候阿里是世界市值第6的公司彼时Facebook我记得是第7。并且我在的team同事都很nice所以我个人其实很喜欢阿里。这确实让我认真纠结过一段时间。我对科研确实有兴趣这是一部分原因。不过在硕士毕业前也就是 2020 年底到 2021 年初那段时间我和室友结合一些宏观指标、房地产数据以及政策变化做过一个比较朴素但也比较务实的判断从当时往后看未来 5 年大概率会是一段不太明朗的周期。去读博某种意义上不仅刚好可以把这段周期“覆盖”过去而且对于整个人生来说也算是一笔不错的投资。当然趋势是会变化的。假如现在让我给面临类似选择的学弟学妹一些建议我会觉得在当下这个阶段做 AI 研究未必还像过去那样强依赖高学历。随着 Vibe Coding 和 Vibe Research 的快速发展我会认为读博这件事需要更加谨慎地权衡。工具能力提升会导致发表论文的门槛显著下降论文数量会开始暴涨。不过即将读 PhD 的同学也不必因此灰心。我的良心建议是利用自己积累的经验只要尽可能去做足够高质量、真正有内容的工作不会有问题。02Recursive Self-ImprovementAgent进化的核心引擎未来一年的突破就集中在这个方向。Q4您曾参与智源社区“迈向Super Agent”研讨会提到2023年Agent框架开始收敛2024年MCP协议、Computer Use等关键能力推动领域规模化落地结合2025-2026年的发展目前Agent领域的最新突破集中在哪些方向图注三年前MetaGPT的附录诸葛鸣晨三年前我已经在 MetaGPT 附录中写下这些方向。回头看它们正在逐步进入行业讨论的中心。也许你会意外的发现2025年David Silver和Richard Sutton主推的Learning from Experience以及2025年下半年到2026年上半年硅谷各大公司的老大比如Elon、Sam、Dario最近爱谈的Recursive Self-Improvement三年前我以精准的terminology将其写入 MetaGPT 附录如今它们正在逐步成为行业讨论的重点。来源https://blog.samaltman.com/the-gentle-singularity; https://www.anthropic.com/news/the-anthropic-institute我们正在推动一个聚焦 recursive self-improvement 的 workshop。2026年的突破就集中在 recursive self-improvement。Q5Agent-as-a-Judge如何解决长时程任务的评估问题诸葛鸣晨Agent-as-a-Judge 是我 2024 年的工作。对于传统 benchmark 任务给定输入、得到输出Agent 往往只需要几分钟或几十分钟就能完成这时当然可以设计明确的 rubric 来评估结果。但现在的 agent 已经能够持续工作 6 小时、24 小时甚至未来稳定运行半个月或一个月。对于这类长时程任务我们更应该优先做什么A.是继续构建带固定 rubric 的 benchmarkB.还是探索一个真正 open-ended 的 Agent-as-a-Judge我个人认为是后者。固定 rubric 适合验收已知问题但它默认好解法大体落在人的预设框架之内一旦 agent 给出超出预设维度的方案固定 rubric 就未必能够充分评估它的价值。那如果已知很难有高质量的Benchmarks来监控长程问题的话理想情况下最好由人类持续监控并提供反馈因为人类仍然最有机会识别真正重要的突破。但这件事成本太高也很难规模化。Agent-as-a-Judge的核心价值是为长时程任务提供持续反馈信号。这种反馈不一定需要 100% 精准只要它有意义、能提供方向性就足以支撑整个迭代闭环继续优化。就像 AlphaGo 的 Move 37固定 rubric 的 benchmark 更容易给出最终结果如AlphaGo赢了而 Agent-as-a-Judge 不仅给最终结果打分也在中间过程实时反馈如Move 37很漂亮。图注2016年AlphaGo与李世石的对局来源网络追问这个反馈和强化学习中的 reward 有什么区别诸葛鸣晨两者不是一个维度的事情。RL里的reward是训练阶段的优化信号目标是更新策略而Agent-as-a-Judge的核心是在任务执行过程中持续提供评估反馈服务于长期演化和多主体协作而不是单轮优化。当然它也可以被复用到agentic post-training场景里作为辅助信号但那不是它的设计初衷。03Agent开源三部曲MetaGPT、GPTSwarm与Agent-as-a-Judge好的工作是解决领域公认的问题或明确指出新的方向。Q6您主导的开源项目MetaGPT、GPTSwarm、Agent-as-a-Judge在GitHub开源社区和学术社区均有较大反响其中MetaGPT在软件设计、编程题解答等任务中表现突出当时开发这些开源项目的初衷是什么诸葛鸣晨我会先回答MetaGPT同时说一下OpenHands。MetaGPT 当时解决的是什么问题呢以前大模型的上下文窗口很短代码如果稍微包含一两个文件就超出了这个上下文长度。MetaGPT 的做法是把不同的职责划分开论文里称为SOP也是现在skill的早期原型CEO 下达命令然后有系统架构师、产品经理、engineer 等角色每一个 agent 的输入输出格式都很清晰规范同时设计了共享的对话窗口。这样就解决了两大问题一是由上下文长度不足导致的 inconsistency不一致性二是 hallucination幻觉。这在2022年、2023年对于coding Agent都是非常严重的问题。而OpenHands我也很喜欢作为参与者我觉得它相比于MetaGPT指出了另一条路就是不用多智能体而用单智能体。OpenHands算是我所有论文里面非一作论文里最喜欢的项目同时这次合作也认识了几个我特别欣赏的researchers。说到初衷其实有一点很实在做开源项目一方面是想在社区里建立一定的visibility另一方面每次把东西推出去都是一次对自己know-how的重新评估。Q7GPTSwarm 的核心设计理念是什么诸葛鸣晨GPTSwarm 的核心想法很直接就是用图来统一建模 single agent 和 multi-agent system。在这个框架里节点代表工具、函数或能力边代表它们之间的连接关系与信息流动方式。这样一来智能体的构建与优化就可以被统一理解为一个图优化问题优化节点是提升单个能力优化边是改善协作关系。进一步地多个 agent 之间的信息传递也可以表示为图中的跨节点连接。图注GPTSwarm概念图GPTSwarm的价值不只是用graph构建agent更在于把optimization纳入同一框架并延伸到self-improvement的问题。我们2023年9月启动2024年2月发布和LangGraph几乎同期——但GPTSwarm多走了optimization或者self-improve这一步。Q8谈谈Agent-as-a-Judge诸葛鸣晨Agent-as-a-Judge 之所以重要不只是因为它能评估更因为它为 recursive self-improvement 提供了持续反馈机制。没有持续反馈机制就不可能形成真正稳定的自我迭代闭环。最近有一个叫Ralph Loop的概念他们强调在循环过程中重要的不仅仅是智能体的能力还需要好的评测手段。这个评测手段可以由智能体自身来定义也可以由另一个智能体来定义。从一开始就定义好指标智能体就一直朝着这个指标去优化直到达到满意为止才停下来。Q9您的论文累计被引用超过5000次多个研究成果获得顶级会议口头报告机会这些成果中您个人最满意的是哪一个诸葛鸣晨我最向往的研究是那种真正解决领域公认问题、或明确指出新方向的工作——既能攻克当下的痛点也能推动社区打开新的讨论空间。说实话以这个标准回望我对过去几年自己的工作都还挺满意的。Q10. 在博士阶段目前有没有错过或者押错的方向诸葛鸣晨最遗憾的是错过了 AI Scientist 这个方向。2023 年下半年我同时构想了 GPTSwarm 和 GPT-Scientist 两个方向也都写了 Proposal给Jürgen如下图是关于GPT-Scientist的Proposal。图注诸葛鸣晨关于GPT-Scientist的Proposal当时判断 GPT-Scientist 可能过于超前可以先缓一缓——要知道像 Devin 这样的系统直到次年也就是 2024 年 3 月才发布。于是我选择了自认为学术贡献更扎实的 GPTSwarm 来推进。加上我有做完一个项目后放松一段时间的习惯GPTSwarm 收尾之后就没能及时跟上做 GPT-Scientist。后来Sakana AI 于 2024 年 8 月发布了《The AI Scientist》正面命中了我当初搁置的那个方向一时间爆火。这个错过实在不应该。04师从“现代AI之父”Jürgen Schmidhuber他脑子像藏了一部百科全书。Q11在开展这些研究的过程中您的导师Jürgen Schmidhuber教授给予了哪些具体的指导和支持是否有某个关键建议帮助您突破了研究瓶颈诸葛鸣晨在组里氛围很自由没有固定的weekly meeting。不用每周应付汇报我就有更多空间去思考这对我帮助很大。图注Jürgen Schmidhuber教授来源网络具体指导方面他会非常详细地看我的论文甚至会因为某句话、某个词表述不清楚而给出很强烈的批评意见。但你跟他交流他会告诉你为什么觉得不对该怎么写、怎么做可能更好。他不是手把手教你的类型你带着问题去问他他往往能迅速指出关键所在——这源自于他长期的积累他确实很博学。一个具体案例我博一刚入学时他让我主导一个叫 Mindstorm 的项目当时有20多号人有一大部分都是senior PhDs。当时我压力很大但他非常支持我。他亲自撰写了那篇论文的 outlook 章节叫做Economy of Mind。那篇 paper 叫做《Mindstorms in Natural Language-Based Societies of Mind》。你想他已经60多岁了还会亲自从文本层面帮你撰写一整个章节。虽然这是他在我整个博士期间唯一一次亲自撰写一个章节但对于一个初级研究者的成长而言这是非常有帮助的。图注论文《Mindstorms in Natural Language-Based Societies of Mind》那个章节也非常超前。他提出智能体的奖励直接等同于“Cash”——就像人类需要薪酬来维持生活agent 社会也可能由经济因素驱动。一些 agent 可能非常“富足”有自己的“baby”数字分身一些 agent 可能会“破产”。他的意思是Agent 也会有自己的“社会”也有自己的经济行为。在这个框架下未来agent 的 reward 不再只是完成任务后的分数——无论是人类偏好、rubric 得分还是来自类似于Agent-as-a-Judge 的反馈。未来的 agentic incentive更可能是现实社会里的现金激励比如美元或欧元这样更自然地驱动 agent 的长期演化和多主体协作。Q12目前您在Meta AI实习这段实习经历是否会影响您未来的研究方向诸葛鸣晨最大的影响有两点一是验证了自己的一些判断很多在学校里不确定的想法发现确实是业界需要的二是结识了很多优秀的研究者那些更资深的人在交流中也确实帮助了我。后面两年Meta和KAUST基本相辅相成挂靠Meta做research。Q13Jürgen Schmidhuber教授被誉为“LSTM之父”“现代人工智能之父”您曾形容他是“典型的德国学者严谨且精益求精”在日常相处中有哪些具体的小事能体现他的这种特质诸葛鸣晨他性格非常鲜明有什么就直接说——在某种程度上像个老顽童。外界说他桀骜不驯但相处下来你又觉得他和蔼可亲。但他在论文上非常严厉。论文里某句话不清楚他会批评然后会告诉你哪些引用需要加上不只是他自己的工作他会列举 AI 历史上所有值得尊重的工作我觉得他脑子像藏了一部百科全书。他很严谨比如他会说 CNN 其实是由日本的福岛邦彦Fukushima贡献的不应该完全归功于 LeCun。他不是只为自己伸张。他还写过一篇 blog 讨论到底是谁发明了飞机大家公认是莱特兄弟但实际上莱特兄弟严格来说只是发明了某种特定形式的飞机在他们之前的1890年就有工程师做出了“有动力的飞行器”这些人都被忽略了。他用这个类比来说明 AI 领域也应该给每一位做出贡献的人应有的 credit。来源https://people.idsia.ch/~juergen/planetruth.html抛开他之前让他出名的的很多文章比如LSTM现在另一批他的早期个人研究最近也显露锋芒从 Godel MachineRecursive Self-Improvement 的早期工作到 Making the World Differentiable以及World Models与 David Ha 共同推动了World Model的定义和流行再到 Fast Weight Programmer 以及与 Imanol 合作的 Delta NetworkLinear Attention 的重要参考等等都在逐步证明他在“大气层”。05Agent的下一个十年人类的适应性一定是比agent强的。Q14开源项目在您的研究中占据重要地位未来您在项目的迭代上有哪些具体规划是否会尝试推动这些项目的商业化落地诸葛鸣晨我参与的OpenHands、MetaGPT 等项目2年前就已经由其他主导人推动商业化而且融资情况也相当可观。相比之下我过去在学校或实习中做的项目大多偏学术更关注未来两三年甚至更长远的需求。但接下来这个状态会变化。进入工业界后我会更多聚焦当前半年内真正需要解决的问题。目前这一两年最终我想做的是一个“过往项目的集大成者”把过去几个项目的思路整合起来多智能体协作、sandbox执行、图优化、自动评估等等设计一个真正可长期运行的长程Agent优先落地在automatic engineering场景。同时会找找有没有机会自己或者和惺惺相惜的researchers一起推 Completely Neural Computers 完备神经计算机我快毕业了会告别paper-oriented research了接下来的日子拭目以待吧。Q15同样是Agent领域的研究者您如何看待Shunyu Yao的《The Second Half》在您看来AI的下一步是什么诸葛鸣晨他很擅长在关键时间节点提出足够大的问题——ReAct 和《The Second Half》都是这样能让更多研究者聚焦到同一个方向上来这本身很有价值也是他 research taste 的体现。但说实话把 AI 的“下半场”概括为 evaluation这个口径是偏宽的。好处是足够包容、易于理解也确实能快速形成共识但代价是技术上会变得模糊——你很难从这个判断直接推导出下一步该做什么。传统 benchmarks 不够用这一点已经是共识。围绕这个问题社区确实在往更贴近真实世界的方向推进比如1Agent-as-a-Judge本身就是在补长时程任务评估的空缺。它不只看最终结果而是为任务执行过程持续提供评估信号2以arena.ai为代表的Arena类系统提供接近真实的用户偏好评估3类似OpenRouter的真实调用量数据在一定程度上反映了市场对模型实用性的综合判断。图注概念图但这些变化本质上还是在改进“仪表盘”而不是重写“发动机”。在我看来更务实的 AI下半场关键还是解决两个更直接的问题一是 Recursive Self-Improvement二是 Neural Computers。前者决定AI如何持续进化后者决定AI以什么形态存在。这两者更直接说明了当前大家可能共同面对的挑战。Q16您刚刚提到的Neural Computers是什么诸葛鸣晨其实这是我即将公开的一篇论文提前透露一些思考。先说它和现有范式的区别。传统计算机围绕显式程序运行Agent围绕任务执行World Model围绕环境建模——而Neural Computer关注的是runtime本身让系统在运行中持续沉淀能力。Agent是在计算机上跑任务而Neural Computer本身就是那台计算机。图注概念图对传统计算机你安装的是软件对Agent你描述的是任务对Neural Computer你更像是在给机器安装能力并期待这些能力以后继续留在机器里。这个工作我去年2月开始探索去年11月基本做完了因为杂事很多一直拖到现在但是应该4月前会发布。Q17. 有什么心得能提前抓住一些热点诸葛鸣晨我有一套判断思路其实就是反复自我追问“当前的主流技术下一波会在哪里汇聚”我觉得这个思维可以作为“公式”被所有人复用12020年multimodal还不火的时候预判各类子课题CV、NLP、RecSys最终会汇入Multimodal快速以身入局22022年AI Agents还不火的时候预判Multimodal、LLM等技术最终会汇入Agents快速以身入局32025年Neural Computers还不火的时候预判World Model、AI Agents以及传统计算机技术最终会汇入Neural Computers快速以身入局。每次利用好这一招基本管3年温饱但能不能大富大贵看个人造化。Q18最后结合当前Agent领域的发展您对这个领域的未来5-10年有怎样的期待AI Agents会不会取代人类诸葛鸣晨Agent已经基本覆盖了编程和各类工程师场景能帮大家实实在在地提速。Agent会从编程扩展到所有日常场景。我个人最期待的是有一天我睡觉的时候它能替我同时跑实验和处理各种杂事。最后想说的是人类的适应力和创造性始终会比Agent更强。AI不会淘汰人但会用AI的人会淘汰不会用AI的人。这个窗口现在还开着先进去的人已经在建立优势了。最后我也想借用我导师Jürgen Schmidhuber在11年前Reddit的回答来替我补充来源https://www.reddit.com/r/MachineLearning/comments/2xcyrl/comment/cp46hxc/追问如果Agent持续普及以后大家是不是也不用996了诸葛鸣晨遗憾的是996恐怕不会消失。Agent普及之后生产力提升但需求也会随之被放大每个人的负担未必真的减少。但至少很多重复执行型工作会被自动化。由于现在讲究Move Fast996好像难以避免。但72小时的工作量如果工资到位、做的又是真正有意义的事其实没那么难熬。最难熬的是忙了一整周最后却发现没有一件事值得。- 推荐阅读 -当刘知远深度分享AI 浪潮之下泳姿不重要关键是先入水智源专访