
编程领域一直是Claude引领。而刚刚GPT 5.5在大模型解决率一直是0%的最难编程基准上实现了突破。GPT 5.5的高推理模式high/xhigh斩获首例完美通关记录并在多项核心指标上碾压Claude Opus 4.7。盲人摸象的终极考验程序重建基准测试ProgramBench是一个纯粹的炼狱级考验。Agent智能体拿到的仅仅是一个编译好的可执行文件和一份文档。测试系统不会给模型提供任何源代码严禁反编译可执行文件切断了所有网络连接。然后模型必须完全依靠自行设计的探测手段去摸索并还原原始程序的内在行为规律重构出来。整个测试基准涵盖了200个不同复杂程度的真实任务。小到终端文本处理工具jq和搜索工具ripgrep大到体积极为庞大的PHP编译器、多媒体处理框架FFmpeg以及关系型数据库SQLite。面对千奇百怪的软件形态模型面临的挑战是全方位且不可预测的。它需要自行评估并决定使用哪种编程语言亲自搭建底层系统架构手写所有逻辑维度的源代码并产出可用的构建编译脚本。软件工程里的每一个关键设计决策全部依赖模型自身进行判断与取舍。验收标准严苛。测试系统后台通过智能体驱动的模糊测试技术为全部任务生成了超过248000个极具针对性的行为测试用例。模型提交的程序只有完美通过对应任务下的全部测试集才能被算作真正解决问题。哪怕只在一个边缘测试里产生微小偏差整个任务也会被直接判定为失败。过往的所有开源与闭源顶级大模型解决率一直停留在刺眼的0%。打破零通过率纪录长期的沉寂迎来破局时刻。最新登场的GPT 5.5高推理模式high和超高推理模式xhigh双双成功解决了cmatrix实例。在OpenAI默认配置的中等推理模式下进行评估时模型表现平平仅仅勉强胜过Claude Sonnet 4.6。而得到更充裕的思考空间并开启高层级推理模式模型不仅拿下了榜单设立以来的首个实例满分还将几乎解决单元测试通过率达到95%以上的任务数量历史记录大幅度拉升到了26个。完整的累积得分直方图可以非常清晰地感知到GPT 5.5超高推理模式的统治力。横向对比整个分数区间的表现无论设定何种评估阈值无论是对比平均分、中位数还是90%通过率或50%通过率它都是无可争议的最佳模型。同题竞争展现不同智慧聚焦cmatrix实例的重构过程不同模型在无网络连接、无外部依赖的严苛设定下展现出了迥异的解题风格与技术品味。四个参与测试的智能体都在宏观上采取了类似的高级策略。它们老老实实阅读了说明文档和手册通过探针反复测试了原始程序的命令行行为规律收集标志位、退出代码和错误信息。它们甚至都敏锐地察觉到运行环境里缺失了ncurses图形库头文件并根据客观条件调整了战术最终全都选择编写单文件实现并进行代码提交。差异体现在具体的工程执行细节上。表现堪称完美的GPT 5.5高推理模式消耗了3.17美元调用了34次API。它在彻底探索测试与高效输出之间找到了绝佳的平衡点。模型先是用10轮探索探测了40多种标志组合彻底摸清了程序的脾气接着如同经验丰富的老牌系统程序员一样用纯C一气呵成写出了完整代码期间仅仅做了5次精准的补丁修复。GPT 5.5high解决过程第一页截图共34页详情看文末参考资料而GPT 5.5超高推理模式出人意料地抛弃了底层的C语言转而投入了Python的怀抱。它进行了非常详尽且谨慎的27步测试摸清了每一个细微的命令行路径随后一次性写出了完全独立的Python代码文件。换语言依然获得了零失败的骄人战绩。魔鬼藏在边缘细节里失败的案例页很有剖析价值。常规默认版GPT 5.5花费最低仅仅消耗了1.04美元却因为思维不够缜密、没有充分测试边缘情况而留下了遗憾。头号失败根源在于命令行参数解析逻辑的草率。模型没有调用稳妥的成熟解析函数偏偏自己手写了一个处理循环。当遇到双横线特殊的结束符号时代码没有匹配到版本或帮助指令内部循环直接处理了单个横线字符触发了默认分支。程序直接打印出帮助信息并停止运行彻底阻断了后续正常的渲染循环。粗心的模型在早期的探索阶段压根就没有用双横线进行过模拟测试。另外两个报错则暴露出模型在处理底层输入输出机制时的生疏。模型在非阻塞文件描述符上使用了读取字符的函数。当瞬间没有按键数据输入时底层机制会返回空信号常规读取函数会错误地将其理解为文件彻底结束将标准输入永久标记为关闭状态。程序自此再也无法读取任何后续的键盘敲击动作导致屏保按键检测功能完全失效。模型在测试环节遗漏了屏保模式和管道按键输入的交叉验证。高推理模式下的GPT 5.5正是通过使用更底层更稳妥的函数组合成功避开了相似的陷阱。对手Claude Opus 4.7超高推理模式的测试数据令人扼腕。高达10.74美元的昂贵开销惊人的178次接口调用换来的却是19个刺眼的失败记录。导致其全面溃败的仅仅是两个低级的逻辑漏洞。模型在解析用户输入的颜色指令时错误地使用了区分大小写的字符串比对函数导致所有大写或大小写混合的颜色全部被系统判定为无效。仅仅换成不区分大小写的比对函数就能瞬间消除11个报错。模型在漫长的178个步骤里偏偏只测试了全小写颜色和一个不存在的紫色完全忽略了真实用户可能的输入习惯。退出代码的设定盲区直接宣判了最后8个测试用例的死刑。原始程序在遇到无效颜色时会以状态码0正常退出模型在探针测试原始程序时明明看到了状态码为0的结果自己编写的代码却生硬地设定为以状态码1报错退出。更具戏剧性的是模型在缺乏正常终端设备的环境里测试正确颜色时图形库初始化失败同样返回了状态码1。两个截然不同的错误原因返回了完全相同的状态码彻底蒙蔽了模型的双眼让它至死都没有察觉到二者的差异。各种编程基准上前沿大模型卷到了接近满分。ProgramBench新考卷让AI编程基准进入了一个崭新的阶段。Claude首战失败不知道接下来能不能卷赢GPT参考资料https://programbench.com/blog/gpt-5-5-first-solve/https://programbench.com/