
AI推理成本危机2026年AI行业正经历费用危机。此前从2022年到2024年前沿模型推理成本下降超千倍让团队认为AI部署进产品指日可待。但推理模型打破预期如OpenAI的o系列等模型生成答案前内部大量“思考”产生推理token即便看不到过程也需付费。据统计复杂代码审查任务用推理模型费用是普通模型5到10倍多步骤规划任务消耗token有时超一万个。像Claude Opus 4.6和Grok - 4回答同一问题Grok - 4消耗token是Claude两倍多成本差距近10倍。主流推理模型依赖“思维链CoT”机制自然语言推理冗长。IBM的新探索IBM Research团队发布论文提出AI不用人类语言思考会怎样的问题。论文名为“Thinking Without Words: Efficient Latent Reasoning with Abstract Chain - of - Thought”。其将方法命名为Abstract Chain - of - Thought抽象推理链简称Abstract - CoT核心是给模型全新“符号词汇表”用符号思考并生成答案。词汇表由人类读不懂的特殊占位符token组成实验显示能把推理步骤压缩到几十个符号以内。如数学应用题标准思维链模型需8个自然语言步骤Abstract - CoT版本只用14个抽象符号且后者消耗推理token不足前者十分之一。面临的挑战与应对方案实现Abstract - CoT面临冷启动问题新符号嵌入向量随机初始化对模型无意义以及让模型学会用符号有效思考的问题。IBM团队设计两阶段训练方案。第一阶段策略迭代热启动Policy Iteration Warm - up采用“信息瓶颈”设计训练时模型最终答案生成只看抽象符号促使其学会压缩关键信息。第二阶段热启动强化学习Warm - started RL引入强化学习GRPO算法模型凭抽象符号生成答案生成式奖励模型打分驱动改进“符号语言”。实验结果与意外发现论文在数学推理MATH - 500、通用指令跟随AlpacaEval、多跳问答HotpotQA三个基准测试验证效果。MATH - 500测试中标准思维链 强化学习方法SFT RL平均每道题生成1671个token准确率92.6%Abstract - CoTWarm - up RL仅生成144个token准确率90.8%压缩比约11.6倍性能差距1.8个百分点。AlpacaEval测试中Abstract - CoT的token数量从496压缩到225约2.2倍胜率从58.4%提升到60.8%。高难度推理任务中Abstract - CoT能实现2.7倍到7.9倍的token压缩性能与全量思维链几乎持平。单独使用“冷启动RL”效果差说明热启动阶段不可或缺。实验还发现强化学习训练后64个抽象符号使用频率形成幂律分布与自然语言的Zipf定律吻合研究者认为是模型自发学习出“概念复用”机制但符号语义仍无法解读。局限与展望Abstract - CoT有局限性抽象推理过程不可解读在医疗等需要可审计性的场景适用性受限且依赖自然语言思维链数据热启动训练。研究团队提出未来方向包括动态调整抽象符号序列长度、构建分层符号结构。它为“AI推理监控”提供新可能未来或可通过分析符号模式判断模型是否“正常思考”。过去AI推理能力提升靠“让模型说更多话”如今IBM论文挑战“AI一定要用人类语言思考”的假设64个无意义符号组成的“哑语”能以十分之一token成本复现接近自然语言推理链的性能。