
4 月 24 日OpenAI 发布 GPT-5.5DeepSeek 发布 V4。两份技术报告几乎同时出现在开发者时间线上一个闭源一个开源一个强调全能智能体一个强调架构效率。这不是巧合。大模型竞赛已经从谁更强转向谁更聪明地强——比的是在更长的上下文里、用更少的算力、跑出更聪明的推理。01版本矩阵与基础能力DeepSeek V4 分为两个版本。V4-Pro 总参数 1.6 万亿激活参数 49BV4-Flash 总参数 2840 亿激活参数 13B。两个版本都支持 100 万 token 上下文和 384K 最大输出同时提供 Non-think 直出、Think High 常规深度思考、Think Max 榨取上限三档推理强度。1.6 万亿参数是上一代 V3.26600 亿的 2.4 倍但激活参数只从 37B 增加到 49B。模型内部设有上千个专家节点每次推理只激活约 3% 的核心参数其余 97% 处于静默。这样规模的模型单次训练成本被控制在约 558 万美元同级别通常过亿。GPT-5.5 的内部代号是Spud距离 GPT-5.4 发布仅七周。它的核心定位不再是传统语言模型而是前沿智能体编码模型Frontier Agentic Coding Model。模型不再只是给出更聪明的回答而是能在复杂任务中自主规划、调用工具、检查结果并持续推进。API 定价输入 $5/百万 token、输出 $30/百万 tokenPro 版输入 $30、输出 $180对比 GPT-5.4 翻了一倍。OpenAI 的逻辑是 token 使用效率大幅提升部分任务消耗降至原来的 1/35。DeepSeek V4 的定价则延续了价格屠夫路线。V4-Flash 输入 1 元/百万 token、输出 2 元V4-Pro 输入 12 元、输出 24 元。V4-Flash 的输出价格约为 GPT-5.5 Pro 的千分之一点五。当前 Pro 版价格受限于高端算力产能官方表示下半年昇腾 950 超节点批量部署后会大幅下调。从版本策略上看DeepSeek 给了开发者一个清晰的阶梯Flash 追求极致性价比Pro 追求能力上限。GPT-5.5 则用标准版和 Pro 版覆盖不同深度需求但整体价位远高于 DeepSeek。02核心技术两条路线两种解法两个模型最本质的差异在于发力点不同。DeepSeek V4 从架构底层做效率创新GPT-5.5 从产品形态做能力扩展。DeepSeek V4 最值得细读的创新在注意力机制。传统 Transformer 的自注意力计算量随序列长度平方增长序列翻倍算力变四倍100 万 token 在传统架构下几乎无法商业化。V4 的解法是把注意力拆成两种交替叠用。第一种 CSA压缩稀疏注意力先用轻量级索引器对所有 token 对做粗筛每 4 个 token 的 KV 缓存合并成一条摘要然后每个 query 只挑最相关的 top-k 条计算注意力。关键在于这个稀疏结构是可训练的——模型自己学出了哪里需要高密度注意力、哪里可以稀疏处理不是人工规则。第二种 HCA重压缩注意力在 V3 时代 MLA 的基础上继续推进每 128 个 token 合并成一条压缩率更激进对剩余摘要做稠密注意力同时把 KV 向量映射到低维潜空间推理时再解压。两种注意力交替叠用再加滑动窗口分支处理邻近 token 的细节依赖效果是惊人的100 万 token 场景下V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%KV 缓存用量只有 10%。V4-Flash 更极端分别压到 10% 和 7%。叠加 FP4FP8 混合精度KV 缓存显存占用再砍一半同等算力下长上下文并发量约为原来的 3 到 4 倍。这不是简单的压缩。CSA 的可训练稀疏索引意味着模型通过梯度下降学会了哪些上下文值得仔细看HCA 的 128:1 压缩之所以不丢信息是因为低维潜空间本身就是训练出来的。这套方案让百万上下文从实验室 demo 变成了可实际部署的产品能力。训练层面V4 也做了几件关键的事。优化器从业界默认的 AdamW 换成了 Muon——基于矩阵正交化更新超大规模训练里收敛更快更稳定。残差连接加上了流形约束 mHC专门解决 1.6T 参数超深度模型的跨层信号衰减。后训练范式也换了思路。V3.2 用混合 RL 一次性优化多个目标V4 换成分化再统一先针对数学、代码、Agent、指令跟随等不同领域各自训练专家模型用 GRPO 做强化学习跑到最优然后用 On-Policy Distillation 把多个专家合成回一个学生模型通过 logit 级对齐吸收能力。工程难点在于同时加载多个万亿参数教师不现实DeepSeek 把教师权重卸载到分布式存储只缓存最后一层 hidden state按教师索引排序样本保证任意时刻显存里只驻留一个 teacher head。GPT-5.5 的技术路线完全不同。它没有在 Transformer 基础架构上做大手术而是在产品化层面做深度整合。四个方向是重点编程领域OpenAI 称其为最强的 agentic coding modelTerminal-Bench 2.0 达到 82.7%Expert-SWE 达到 73.1%计算机使用上结合 Codex 平台能理解屏幕内容、操作界面支持 400K 上下文窗口知识工作上文档生成、表格建模、运营研究等任务表现优异OpenAI 内部超过 85% 员工每周使用 Codex科研领域帮助发现了拉姆齐数的新数学证明并在 Lean 中完成验证。GPT-5.5 还做了一件有意思的事它和 Codex 参与了自身基础设施的优化通过分析生产流量数据生成更优的负载均衡算法token 生成速度提升超过 20%。这种用模型优化模型的闭环是 OpenAI 在工程层面的差异化打法。简单说DeepSeek V4 回答的问题是怎么用更少的算力做更多的事GPT-5.5 回答的问题是怎么让模型从聊天框变成任务引擎。两个问题都重要但解法完全不同。03实测表现各有擅长差距在缩小官方 benchmark 只是一面第三方实测和社区反馈是另一面。DeepSeek V4 在数学与竞赛推理上表现突出。V4-Pro-Max 在 Codeforces 评分 3206Apex Shortlist 90.2均超过 GPT-5.4 xHigh 和 Gemini 3.1 Pro High。Agent 能力上 SWE Verified 80.6与 Claude Opus 4.6 和 Gemini 3.1 Pro High 持平。长上下文召回准确率 97%。GPT-5.5 在 Terminal-Bench 2.0 上以 82.7% 领先Expert-SWE 73.1%GDPval 84.9%OSWorld-Verified 78.7%。但在 SWE-Bench Pro 上Claude Opus 4.7 仍以 64.3% 保持领先GPT-5.5 为 58.6%说明软件工程能力上各家各有擅长。第三方榜单上的反馈也值得参考。arena.ai 榜单上 V4 文本能力位列第 20编程能力位列第 14国产最强是 GLM-5.1 排第 5。vals.ai 榜单上 V4 开源第一、全球第九但跟前三分差还有距离。Linux.do 社区有评测认为 V4 Pro 表现甚至比 GLM-5.1 稍差距离 TOP3 仍有差距。DeepSeek 官方的内部评价也很诚实V4 已成为员工 Agentic Coding 的主力模型使用体验优于 Sonnet 4.5交付质量接近 Opus 4.6 非思考模式但仍与 Opus 4.6 思考模式存在差距。通用知识问答和前沿科学推理是 V4 相对薄弱的环节。SimpleQA-Verified 57.9HLE 37.7。GPT-5.5 在这些维度上目前仍有优势FrontierMath Tier4Pro 版39.6%BixBench 80.5%。客观地说两个模型在编程和 Agent 能力上的差距已经很小。真正拉开差距的不是某个单项 benchmark而是各自擅长的场景切片——V4 在长上下文和成本效率上有压倒性优势GPT-5.5 在任务自动化和工具链整合上更成熟。04开发者怎么选选型取决于你在解决什么问题。如果你的核心需求是处理超长文档、长代码库分析、或者需要百万 token 级别的上下文窗口DeepSeek V4 在成本效率上有着压倒性优势。V4-Flash 输出价格不到 GPT-5.5 Pro 的千分之二V4-Pro 也仅为后者的约 1/7。而且 CSAHCA 架构让长上下文不再是能用但贵得离谱而是可以日常使用的标配能力。如果你需要端到端的任务自动化——让模型自主操作电脑、完成多步骤工作流——GPT-5.5 配合 Codex 平台目前提供了更成熟的方案。400K 上下文窗口、计算机使用能力、85% 内部员工渗透率这些产品化指标说明它已经过了demo 阶段。如果你是研究团队或希望深度定制模型DeepSeek V4 的 Apache 2.0 开源协议和 58 页技术报告提供了完整的二次开发基础。1.6 万亿参数的权重完整开源Muon 优化器、mHC 残差连接、CSA/HCA 注意力架构等核心创新全部披露任何团队都可以站在这些成果之上继续往前走。如果你的业务对通用知识问答和前沿科学推理有极高要求GPT-5.5 在这些维度上目前仍有优势。还有一个容易被忽略的维度国产算力适配。这是 DeepSeek 首次在正式技术文档中将华为昇腾与英伟达并列写入硬件验证清单。V4-Pro 在昇腾 950 上实现了 20ms 低时延推理单卡 Decode 吞吐 4700TPSMoE 专家权重采用 FP4 精度恰好是昇腾 950PR 的原生支持精度。寒武纪也完成了 Day 0 适配。对于有国产化需求的团队来说这是一个实际的影响因子。DeepSeek 在 V4 技术报告标题里用了Towards——“迈向高效百万 Token 上下文智能”。这个措辞很诚实不是终点是方向。GPT-5.5 同样展示了闭源路线的价值当模型能力足够强时产品化的深度和工具链的完整度可以成为真正的竞争壁垒。4 月 24 日这一天两个团队用各自的方式证明了一件事大模型竞赛的下半场比的不是谁堆的参数更多而是谁用更聪明的方式让有限算力产出更大价值。对开发者来说选择变多了成本在下降天花板还在不断被抬高。DeepSeek 官方在发布时引用了《荀子·非十二子》的一句话不诱于誉不恐于诽率道而行端然正己。放在当下的大模型竞赛里意外地贴切。若您希望深入了解词元无限或希望了解 InfCode 如何为您的团队赋能请扫码访问官网获取免费体验资格或者添加客服微信我们将会进一步为您提供详细说明。