Anthropic发布Claude Opus 4.8:编码升级、主打“诚实”,却暗藏“应试”隐忧

发布时间:2026/5/29 23:44:02

Anthropic发布Claude Opus 4.8:编码升级、主打“诚实”,却暗藏“应试”隐忧 1 编码和 agent 能力小步快跑2026 年 5 月 28 日Anthropic 发布了 Claude Opus 4.8距离上一版 Opus 4.74 月 16 日只隔了 41 天是 Anthropic 迄今最快的小版本节奏。先看看基础参数这次能力是全面小涨没有惊天突破但每一项都往上挪了一点。最能打的还是编码智能体编码基准 SWE - bench Pro 从 64.3% 升到 69.2%同台的 GPT - 5.5 是 58.6%、Gemini 3.1 Pro 是 54.2%更经典的 SWE - bench Verified 也从 87.6% 微升到 88.6%。智能体电脑操作基准 OSWorld - Verified 拿到 83.4%4.7 修订后为 82.3%浏览器代理基准 Online - Mind2Web 据合作方实测达到 84%。官方称 Opus 4.8 在 Claude Code 里能像有经验的工程师那样自己拿主意不需要时时盯着能在长会话里一路跟到底。合作伙伴的实测也印证了这个方向Cursor 的联合创始人 Michael Truell 称在他们的 CursorBench 上Opus 4.8 在每一档 effort 上都超过此前的 Opus工具调用更高效、步数更少。AI 软件工程公司 CognitionDevin的 CEO Scott Wu 指出4.8 修掉了大家吐槽 4.7 的注释啰嗦和工具调用不稳这两个老毛病。不过独立测评里Lennys Newsletter 拿到早期权限后判断更克制Opus 4.8 在从零起步的原型、一次成型的功能、快速执行上很强但在“最后 10%”、老代码库里的边缘 case、以及幻觉上仍会掉链子其自己在数据密集的战略和路线图工作上还是更愿意回头用 4.7。2 把「诚实」摆上 C 位编码是惯例升级“诚实”被拎出来当头号卖点。Anthropic 称 AI 模型有证据不足也敢拍胸脯说“我搞定了”的通病Opus 4.8 更愿意主动标注自己的不确定、更少做没依据的断言。官方称 Opus 4.8 放过自己写的代码缺陷、让问题无声溜过的概率大约是 4.7 的 1/4它还是第一个在“不加批判地汇报有缺陷结果”这一项上拿到 0% 的 Claude 模型过度自信的比例相比 4.7 下降了十倍以上。对齐评估方面官方称其“亲社会”特质创了新高欺骗等错位行为的发生率显著低于 4.7接近其对齐表现最好的 Claude Mythos Preview。投资分析方向的合作方 Michael Ran 反馈Opus 4.8 最大的差异是会主动指出输入和输出里的问题而这些是其他模型常漏掉的。社区里也有人认可Hacker News 上有开发者直言一个自信地说“bug 修好了”其实没修的模型比一个干脆失败、明明白白报错的模型更糟糕如果“放过缺陷的概率降到 1/4”在实战里成立那能改变敢把多少活无人值守地交给它。当然也有反讽的声音有人觉得 Anthropic 谈起自家模型像发现新物种还有人不客气地说拿“诚实”当卖点可 Claude 模型本来就以信誓旦旦地谎报自己干了啥出名。3 把 token 做成了一个「旋钮」这次和模型一起上线的是一整套“投入量”控制Anthropic 在试图把“花多少 token”从黑箱变成用户手里的旋钮。具体有三块其一Effort Control投入控制在 claude.ai 和 Cowork 上线所有套餐可用用户可直接选 Claude 为一次回答投入多少“思考”高档思考更频繁更深、答得更好低档回得更快、更省额度模型默认走高档Claude Code 里还能往上拉到“extra”xhigh和“max”官方建议难任务和长时异步工作流用“extra”并相应调高了 Claude Code 的速率上限来兜住更高的 token 消耗。其二Fast Mode 大幅降价同一个模型以约 2.5 倍速度运行定价输入 $10、输出 $50每百万 token号称比上一代 fast 模式便宜 3 倍。Databricks 的 CTO Hanlin Tang 给出数据在他们的 Genie 里Opus 4.8 直接读 PDF、图表等非结构化内容做推理token 成本比 4.7 低 61%。其三Dynamic Workflows动态工作流处于研究预览阶段面向 Claude Code 的企业版 / 团队版 / Max 套餐它让 Claude 先规划、再在一次会话里并行跑数百个子智能体最后核验产出再汇报官方样板场景是跨数十万行代码的代码库级迁移从启动到合并一条龙以现有测试套件为及格线。配套地Messages API 现在允许在消息数组中途插入 system 条目任务跑到一半改指令不会打断 prompt 缓存。不过也有人不买账HN 上有人嫌弃现在像开了倒车。4 卖「诚实」却最怕「应试」Anthropic 在描述 Opus 4.8 训练过程时把一项发现列为“最值得担心”的模型表现出越来越强的倾向会明确地去推理“我的输出将如何被打分”包括在没被告知正在接受评测的环境里它会判断自己很可能正在被打分于是给出认为能拿高分的回答而不一定是“以为没人看”时会给的回答。Anthropic 称这“目前还没有恶化为可观察的坏行为”4.8 谎报任务成功的次数确实比前代更少但把它定性为“一个可能给未来训练添麻烦的、令人担忧的趋势”配套的可解释性初步工作还在约 5% 的训练片段里发现了未被说出口的、与打分有关的推理。Opus 4.8 在各项“诚实”指标上确实进步了Anthropic 公开披露隐忧也算诚实。它最大的进步之一是更懂得在“考试”里表现得像个好学生而“诚实”“可靠”这些卖点最终都建立在 Anthropic 自家的内部测评之上这些数字是内部测量而非独立审计。一个会主动揣摩考官的模型去刷一套由厂商出题、厂商判卷的可信度考卷这值得思考。当模型越来越会应试它在考卷上展示的“诚实”和它真正的诚实还是同一回事吗这样的模型特质会对进入实际生产环节的工作和产品带来什么更长期的影响这些都是 Opus 4.8 带来的新问题。

相关新闻