GPT - 5.4 Thinking:强大推理背后的喜与忧

发布时间:2026/5/26 22:16:00

GPT - 5.4 Thinking:强大推理背后的喜与忧 GPT - 5.4 Thinking专为复杂思考而生上周OpenAI 发布了 GPT - 5.4 Thinking这并非普通的 ChatGPT 渐进式更新而是直接从 5.2 跳到 5.4且未推出通用版本。该模型专为处理更复杂思考和挑战而设计认知能力更强可用于编程工具 Codex、API 以及付费的 ChatGPT 计划。图像与格式处理GPT - 5.4 Thinking 的明显短板在测试中GPT - 5.4 Thinking 的图像生成能力欠佳。如在“空中航母”测试里无论是最初按提示生成图片还是根据设计方案再次生成图像都未能满足要求即便给出详细图像规格也无改善。在格式处理方面它喜欢用很长的编号列表即便按要求优化效果仍不理想。例如在“波士顿科技与历史旅行行程”测试中最初的行程规划格式就存在问题优化后也不尽如人意。强大推理能力深度分析的利器GPT - 5.4 Thinking 具备强大的推理能力在一些测试中表现出色。在“社交媒体对社会的影响”测试中它对问题进行了深入分析先给出总结称社交媒体对社会交流既有改善也有恶化接着进行了 1300 字的详细分析并在追问如何应对影响时也给出了有说服力且合理的答案。在“空中航母”设计分析中它能从工程学角度给出合理理由说明某些设计不可行。答非所问使用体验的一大困扰该模型存在一个严重问题即有时会回答非所问的问题。在“用教育建构主义解释 GPT - 5.4”测试中提示词要求通过“实践”活动来解释但它却生成了一篇论述 GPT - 5.4 Thinking 如何支持建构主义的论文完全没有体现“通过实践学习”。这就像政治候选人在辩论中不回答问题只是背诵自己的观点容易让人被其内容吸引却偏离问题本身。编辑观点GPT - 5.4 Thinking 推理能力强大但图像与格式处理差、答非所问问题突出。若 OpenAI 能解决这些问题其在复杂任务处理上潜力巨大否则将影响用户体验和商业化前景。

相关新闻