小米MiMo降价是要干嘛?

发布时间:2026/5/28 1:45:13

小米MiMo降价是要干嘛? 99%降幅背后小米MiMo降价不是价格战而是一场推理基础设施的军备竞赛导语一周之内DeepSeek永久降价75%小米MiMo紧跟降99%。表面看是价格战但当你把视线从每百万Token多少钱移开会发现真正改写行业规则的不是价格表而是背后的推理工程效率。本文从技术降本逻辑出发拆解这场降价潮的底层真相。一、先看事实不是便宜一点是便宜一个量级2026年5月27日0点小米MiMo-V2.5系列API正式永久降价。核心数据如下模型指标原价≤256K原价256K-1M新价统一最高降幅MiMo-V2.5输入缓存命中0.561.120.0298%MiMo-V2.5输入未命中2.805.601.0082%MiMo-V2.5输出14.0028.002.0093%MiMo-V2.5-Pro输入缓存命中1.402.800.02599%MiMo-V2.5-Pro输入未命中7.0014.003.0079%MiMo-V2.5-Pro输出21.0042.006.0086%单位元/百万Tokens。数据来源小米技术官方公告两个关键变化值得注意取消上下文窗口分档计价——此前256K以内和256K-1M是两套价格长窗口成本翻倍现在统一拉平相当于直接降低了长上下文任务的使用门槛。Token Plan用量提升5-8倍——套餐价格不变但额度暴涨。按95%以上缓存命中场景测算39元的Lite档可跑5亿Token以上。5天前DeepSeek V4-Pro宣布永久降价75%最终定格在缓存命中0.025元、未命中3元、输出6元。MiMo-V2.5-Pro的三项核心价格与DeepSeek V4-Pro完全一致。据观察者网分析小米并非简单降价而是将Pro档价格直接对齐了DeepSeek刚刚打出的价格基准。二、新角度这不是价格战而是推理基础设施竞赛大多数文章把这次降价解读为价格战升级。但如果我们换个视角——为什么能降——会发现一个更本质的趋势价格表只是表象推理效率才是战场传统理解中API定价逻辑是模型能力越强→价格越高。但DeepSeek和MiMo这两轮降价揭示了一个新范式模型服务的定价正在从能力溢价转向推理成本锚定。也就是说不是我有多强就该卖多贵而是我单次推理能压到多低就定多低。支撑这一转变的是推理系统工程的三个关键突破① KV Cache多级存储优化小米官方披露团队基于SGLang HiCache完整支持 SWASliding Window Attention将KV Cache在GPU显存、CPU内存、SSD多级存储间的数据搬运量降至优化前的约1/7可缓存Token数量提升至约5倍。这意味着什么简单说同样的GPU能服务的并发请求多了5倍单个请求的成本自然暴跌。# 伪代码示意SWA HiCache 的效果# 传统方式KV Cache 全量驻留 GPU 显存kv_cache_sizeseq_len*hidden_dim*num_layers# 显存占用随序列长度线性增长# SWA HiCache滑动窗口 多级存储kv_cache_gpuwindow_size*hidden_dim*num_layers# GPU只保留最近窗口kv_cache_cpu(seq_len-window_size)*hidden_dim*0.1# 冷数据压缩后存CPU/SSD# 总搬运量 ≈ 优化前的 1/7可缓存量 ≈ 优化前的 5x② DeepSeek的混合注意力架构DeepSeek V4-Pro采用自研CSA压缩稀疏注意力和HCA混合压缩注意力百万Token上下文场景下单Token推理计算量降至前代的27%KV缓存占用仅为原先的10%这是DeepSeek敢于永久2.5折的技术底气。据赛迪网报道DeepSeek去年公开的推理成本利润率高达545%——API业务本身是赚钱的不是烧钱换市场。③ 国产算力适配拉低成本基线DeepSeek V4系列全流程适配华为昇腾算力摆脱对海外高端GPU的依赖。小米同样在推理集群层面做了大量工程优化专家并行、输入长度分桶等。软硬件协同带来的不是5%的边际优化而是成本结构的根本改变。三、K型分化一降一涨之间的行业分水岭据中国经济网报道国内大模型市场正在呈现明显的K型分化路线代表厂商策略逻辑降价走量DeepSeek、小米MiMo、阿里通义千问、字节豆包API价格持续下探推理效率提升→成本下降→降价抢生态溢价保值智谱GLM、腾讯混元价格稳定甚至上调主打企业定制、合规保障、服务溢价AI聚合平台AI.cc发布的2026年报告显示过去一年企业级大模型Token调用成本同比暴跌67%开源模型已占据企业Token调用量38%的份额。这不是偶然。降价阵营的共同特征是推理工程效率足够高降价不亏钱。而涨价阵营的逻辑是高端场景对价格不敏感能力溢价仍有人买单。两种路线没有对错但有一个残酷的现实当缓存命中价格被压到0.025元/百万Tokens真正被重估的不是一次问答的价格而是复杂任务连续运行的成本。对于Agent、代码助手和企业知识库而言大量调用包含重复上下文系统提示词、工具说明、历史轨迹、代码仓库背景缓存命中率天然很高。0.025元的缓存命中价让原本因成本过高无法大规模部署的长上下文多步Agent成为可能。四、开发者视角你该关心什么1. 缓存命中价才是真实价格很多人看到0.025元/百万Tokens就兴奋但这是缓存命中的价格。实际部署中你需要关注你的业务场景缓存命中率有多高Agent和Code场景通常90%但高度动态场景可能50%首Token延迟是多少低价但响应慢用户体验打折并发限制和高峰期稳定性如何2. 上下文窗口拉平是真正的大事MiMo取消上下文分档意味着1M上下文和256K同价。对开发者来说这比便宜一点更关键# 此前的痛点 长上下文输入成本 短上下文 × 2~3倍 → Agent、代码审查、长文档问答成本居高不下 # 取消分档后 长上下文输入成本 短上下文 × 1 → 长上下文场景的ROI显著改善大规模部署成为可能3. 企业不该只选最强模型而该搭路由系统正如观察者网所指出的未来企业不会只问哪个模型最强而是更关注什么任务该用什么模型任务类型推荐路由理由法律/金融/关键代码审查高端闭源模型准确性成本客服初筛/批量摘要/代码初稿低价开源模型成本极致准确企业知识库问答/文档整理中间档RAG性价比最优Airbnb CEO Brian Chesky曾公开表示其客服AI由13个模型组成很大程度上依赖通义千问——“更好更便宜”。模型路由正在成为企业AI基础设施的核心能力。五、全球视角国产模型的价格锚效应把价格放到全球体系里对比差距更加触目惊心模型输入$/MTok输出$/MTok缓存命中GPT-5.5 Pro30180—Claude Opus 4.7525—DeepSeek V4-Pro0.4350.870.0036MiMo-V2.5-Pro1.003.000.20数据来源Apidog中国LLM价格战分析、Awesome Agents Q2定价报告GPT-5.5 Pro的输出价格是MiMo-V2.5-Pro的60倍是DeepSeek V4-Pro的207倍。这意味着国产模型的低价不再只是平替叙事——它开始对全球大模型API的价格体系形成压力。据21世纪经济报道分析Anthropic甚至在其战略报告中推演了中国AI凭借DeepSeek等低成本模型抢占全球市场的情景。六、写在最后降价是结果不是原因回到开头的问题99%的降幅是价格战吗表面是底层不是。这次降价的本质是推理系统工程效率的突破使得单Token服务成本大幅下降降价只是把技术红利释放给了市场。小米的SGLang HiCache SWA → KV Cache搬运量降至1/7DeepSeek的CSA HCA → 推理计算量降至27%国产算力适配 → 摆脱高端GPU依赖成本基线下移大模型API价格战已经不再是模型参数和榜单能力的竞争而是推理框架、缓存系统和集群资源调度能力的竞争。能否在高并发、长上下文和多轮调用下持续压低单Token服务成本正在成为厂商基础设施能力的一部分。对开发者而言这不是薅羊毛的好时机——而是重新审视自己的AI基础设施架构、重新设计模型路由策略的时刻。当调用百万Token的成本比打一通电话还便宜真正的问题不是用哪家更便宜而是**“我该怎么用才能把这把廉价弹药打到最该打的地方”**。*本文数据截至2026年5月27日API价格可能持续变动请以各厂商官方定价页面为准。*小米MiMo注册目前还有活动感兴趣的同学可以前往查看参考来源小米技术官方降价公告 - 36氪小米MiMo降价99%跟进DeepSeek - 观察者网雷军宣布永久降价最高99% - 中国经济网DeepSeek永久降价75% - 赛迪网2026中国LLM价格战Top 5对比 - ApidogAI API定价Q2 2026报告 - Awesome AgentsDeepSeek搅动AI江湖 - 21世纪经济报道

相关新闻