11模型括号匹配同题测试:7个满分4个零分

发布时间:2026/6/10 3:05:33

11模型括号匹配同题测试:7个满分4个零分 #代码执行 #材料约束 #括号匹配 #调试对比 #工程实现11个主流模型面对同一道括号匹配调试题最终结果呈现明显两极7个模型得分1004个模型得分0。核心发现是原代码真正致命的bug在于函数末尾的裸“return”会返回None而非明确的True或len(stack)0。原代码的真实问题题目提供的代码在匹配成功后使用三个if-continue结构最后直接return。这种写法在栈为空时会返回None。Python中None在布尔判断中为False导致调用方收到非预期结果。豆包Pro、Qwen3 Max、文心一言4.5、Grok 4、DeepSeek V4 Pro、Claude Opus 4.7和GPT-5.5均识别了这一问题并统一改写为return len(stack)0。相比之下Gemini 2.5 Pro、Claude Sonnet 4.6、Gemini 3.1 Pro和GPT-o3四模型未能在输出中体现对该返回值的修复或直接未完成有效代码导致0分。满分模型的共同做法7个满分模型均采用字典映射方式重构匹配逻辑使用mapping {):(, }:{, ]:[}左括号入栈右括号弹出并比对统一返回len(stack)0这种写法把原代码三个重复if简化为一次查表同时补上了原代码缺失的非括号字符处理。GPT-5.5额外增加了else分支遇到非法字符直接返回False代码鲁棒性更强。零分模型暴露的短板Claude Sonnet 4.6详细论证了原逻辑“实际上正确”却未输出修正代码。Gemini系列和GPT-o3则在输出片段中未能完整呈现最终可运行版本。零分模型共同特点是要么停留在分析阶段要么修复不彻底未能同时解决返回None和非法字符两个问题。工程判断的实际意义本次测试再次证明代码执行维度不仅考察能否写出正确结果更考察能否发现隐蔽的返回类型错误。使用continue跳过return False的写法虽然短期有效但可维护性差未来添加逻辑极易引入新bug。满分模型通过映射表一次性判断显著降低了后续维护风险。当模型能主动把“能跑”升级为“易维护且边界清晰”才真正跨越了代码执行的及格线。本次评测中7个模型跨越了这条线4个仍停留在表面分析。稳定性维度后续将追踪同一模型多次回答同类调试题时的分数波动当前结果已显示出明显分化。数据来源赢政指数 (YZ Index) | Run #154 | 查看原始数据© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

相关新闻