
引言2026年4月27日一条新闻震动了全球AI圈David Silver——DeepMind的首席科学家、AlphaGo的缔造者——创办的Ineffable Intelligence以$51亿估值完成了$11亿种子轮融资。「种子轮」和「$11亿」这两个词放在一起本身就是一种宣言。更何况这家公司还未公开任何一个模型或是API产品。投资人到底在赌什么答案是一种全新的AI训练范式。零人类数据。纯自博弈强化学习。目标不是「更好的LLM」而是「超级智能」。一、从AlphaGo到Ineffable一条技术基因的延续要理解Ineffable Intelligence必须先理解David Silver的技术哲学。Silver是强化学习领域最重要的研究者之一。他在DeepMind领导了AlphaGo项目——2016年AlphaGo击败李世石震惊世界。但AlphaGo真正的技术启示不是「AI能赢围棋冠军」而是自博弈self-play作为一种训练范式可以产生超越人类水平的智能行为。AlphaGo之后Silver领导的AlphaZero进一步验证了这个范式不给任何人类棋谱纯靠自我对弈从零开始学会围棋、国际象棋和将棋——每一项都超越了所有人类和所有之前的AI。然后是AlphaStar星际争霸、AlphaCode编程竞赛……每一次核心方法论都是同一个让AI与自己对抗在对抗中进化。现在Silver认为时机已经成熟可以将自博弈RL从「游戏和特定任务」扩展到「通用智能」。二、什么是「超级学习者」Ineffable Intelligence的核心概念叫「超级学习者」Superlearner。与LLM依赖海量人类文本数据的训练方式不同超级学习者的训练数据来自自我生成和自我验证的闭环生成模型提出一个问题或挑战如证明一个数学定理尝试模型尝试解决问题验证在可验证的领域数学、代码、科学答案正确与否有客观标准学习从成功和失败中更新策略增加难度模型自动生成更难的问题进入下一轮这个闭环完全不需要人类标注数据。理论上模型可以在没有任何人类输入的情况下通过自我博弈无限提升能力。David Silver 将此描述为「一种超越人类数据瓶颈的路径」。当前LLM范式面临的核心约束是互联网上的高质量文本数据已经接近枯竭。而自博弈范式不受此限制——模型可以无限生成自己的训练数据。三、为什么是现在三个结构性条件Silver选择在2026年创立Ineffable不是心血来潮。三个结构性条件刚好成熟1. 验证式反馈的规模化代码执行、数学证明验证、科学模拟——这些领域都有了高效、可扩展的自动验证器。模型可以知道自己是对是错而不需要人类来告诉它。这是自博弈RL的前提条件。2. 自博弈RL的理论进展从AlphaGo到AlphaZero到MuZero自博弈RL的数学框架已经相当成熟。Silver本人就是这个领域最重要的贡献者——他现在要做的是把这套方法论从「游戏」扩展到「一切」。3. 算力成本的结构性下降自博弈RL的算力需求极其巨大——每一轮自我对抗都需要成百上千次模型推理。但随着专用AI芯片NVIDIA Rubin、Google TPUv6的推出和算力成本的持续下降大规模自博弈在经济上变得可行。四、竞争格局Ineffable 与 OpenAI、Anthropic 有何不同维度OpenAI / AnthropicIneffable Intelligence训练数据互联网文本 人类标注自生成 自验证核心方法大规模预训练 RLHF纯自博弈 RL能力边界受限于人类数据质量理论上无限验证方式人类偏好客观可验证标准可解释性低黑箱中可验证推理链商业化路径LLM API 产品未明确两种范式并不互斥但底层哲学截然不同。LLM范式相信智能可以从人类知识的压缩中涌现。自博弈范式相信智能可以从自我对抗的经验中涌现。前者是「读万卷书」后者是「行万里路」。最大的区别在于自博弈不受人类数据天花板的限制。五、最大的赌注与最大的风险Ineffable Intelligence的故事很美但它面对的风险也是巨大的风险1自博弈能否泛化到「不可验证」的领域数学、代码、科学——这些领域的答案可以自动验证。但写一篇文章、做一个商业决策、设计一个产品——这些「开放式」任务没有客观的对错标准。自博弈在这些领域能否产生智能是一个悬而未决的问题。风险2$11亿种子轮的资金纪律历史上拿了太多钱太早的公司往往死于资金效率低下。$11亿的种子轮意味着团队可能缺乏「资源约束驱动创新」的压力。风险3DeepMind的人才依赖Ineffable的核心团队来自DeepMindSergey Levine、Nando de Freitas等也都传闻将加入或合作。但这批世界顶级研究者能否在创业公司的节奏中保持产出是个未知数。风险4中国团队在自博弈RL上的追赶值得注意的是中国团队在Agent自进化方面进展迅速。MiniMax M2.7已经展示了模型自我优化scaffold的能力Agent-World人大字节则用自进化环境训练出了超越商业模型的Agent。自博弈范式并非Ineffable的独家领地。结语David Silver 的 $11亿种子轮是2026年AI行业最值得关注的技术赌注。它代表了一种与主流LLM范式截然不同的技术信仰智能不是从数据中学到的而是从经验中学到的。经验不需要人类来提供——AI可以自己创造。如果这个赌注成功我们将见证AI从「人类知识的镜像」进化为「自主智能的火种」。如果失败$11亿将是科技史上最贵的一堂RL课程。无论哪种结果David Silver的故事都将被写进AI的教科书。本文基于CNBC、Sequoia Capital公告、Ineffable Intelligence公开信息、David Silver的学术论文等资料整理分析。