全球公司集体反省：从“Token管够”到“小模型经济学”，省钱风潮来袭！-尧图网站设计

全球公司转向“小模型经济学”曾经Token管够的公司如今集体开始节约。最近美国Agent公司Lindy将100%的托管Agent流量从Claude迁移至DeepSeek V4理由是能节省数百万美元推理成本迁移流量成本下降约90%。不仅如此一些美国开发者和中小公司转向中国模型因其在大量日常任务上“够用且便宜”。据外媒报道Siemens、Renault、Orange、ChapsVision等欧洲企业也开始混用美国、中国、欧洲的模型。Token最大化的反噬过去一年很多企业鼓励员工多用AI认为Token烧得越多越能证明公司“AI - first”。但随着Token账单摆在面前全球公司开始集体反省“该省省该花花”小模型经济学风潮兴起。所谓小模型经济学就是不什么活都请最贵的专家。过去企业接入AI默认用最强模型然而前沿模型是Token碎钞机成本高昂。于是大家思考是否每件事都要用最贵的旗舰模型结果发现简单活分给便宜模型复杂活上贵模型效果不错这一省钱“小妙招”被称为“小模型经济学”。这一经济学并非凭空产生而是被账单逼出来的。Uber曾鼓励工程师多用AI编程工具如Claude Code、Cursor但仅几个月就烧穿全年AI编程预算。Uber COO Andrew Macdonald公开质疑Claude Code使用量与“多交付25%有用消费者功能”的关联随后公司给员工设Token限额每人、每个工具每月1500美元Token花费超额需获批。亚马逊员工自发做KiroRank排行榜比谁用Token多有人钻漏洞高级副总裁Dave Treadwell只好喊话“别为了用AI而用AI”排行榜下线。Meta内部的“Claudeonomics”也遭遇同样问题。目前大公司都开始收紧Token用量微软取消Claude Code直接许可转向GitHub Copilot CLICopilot从固定订阅走向按量计费Meta从“Token最大化”转向“Token最小化”策略计划限制员工Token使用因内部AI使用成本预计达数十亿美元级别。小模型经济学变成一门生意企业抠预算的同时供给侧也发生变化便宜模型开始好用。DeepSeek V4系列是典型代表其价格比Anthropic模型低约20 - 50倍在Ramp的企业软件采购趋势榜上曾冲到第一在Vercel AI Gateway的生产流量中Token份额一个月从不到1%升至17%连微软都考虑用其微调版顶替Copilot Cowork里的Anthropic、OpenAI。行业形成分层逻辑不差钱或任务难时用OpenAI、Anthropic的旗舰模型算性价比则用DeepSeek、Kimi、智谱GLM、MiniMax等“够用且便宜”的模型。开源项目ClawRouter数据显示这种分层组合可将平均成本从每百万Token 25美元压到约2美元。在这种逻辑下OpenRouter等模型路由公司变得有价值。OpenRouter不训练模型而是做模型调度台考虑价格、延迟、稳定性、上下文长度等因素帮助企业和开发者在数百个模型之间调度。据外媒报道OpenRouter今年完成1.13亿美元B轮融资估值约13亿美元周处理Token量涨了5倍到25万亿拥有800万用户。Vercel数据显示大规模AI应用不是一个模型打天下月请求量超1000万次的团队平均会同时使用35个模型AI使用像分工明确的流水线。还有LiteLLM、Helicone等工具把模型路由做成财务系统可按团队、项目、模型设置预算监控Token消耗切换流量。云厂商也跟进AWS Bedrock的Intelligent Prompt Routing能在同一模型家族里自动分配请求内部测试显示可节省48%到56%成本。企业如何落地“小模型经济学”企业落地“小模型经济学”面临具体技术问题如请求该派给便宜模型还是贵模型需把AI任务拆成小步骤。以客服Agent为例用户问“我的订单到哪了”先让便宜模型判断意图再抽出订单号调用物流API最后用中等模型润色结果企业可减少昂贵推理。AI编程也类似读取目录等简单任务可交给便宜模型大型重构等复杂任务交给强模型。企业实现模型路由通常有几种做法。最简单的是规则路由如订单查询走小模型加API法律问题走强模型加人审更常见的是级联路由先让便宜模型回答校验不通过再升级给贵模型还有学习型路由系统根据提示词难度等自动判断用哪个模型。近两年相关工程化手艺成为研究课题如ParetoBandit研究动态环境里的预算路由Budget - Aware Agentic Routing研究Agent场景。当企业转向务实的“小模型经济学”这是继续扩大AI使用的前提。

全球公司集体反省：从“Token管够”到“小模型经济学”，省钱风潮来袭！

相关新闻

LV30条码扫描器与TM4C1299KCZAD微控制器的集成方案

Codex 第三方配置工具使用指南

PCF8591与PIC24HJ256GP610的混合信号处理系统设计

AI4C高级应用：函数级粗粒度调优的10个最佳实践

从零玩转Metasploit：网络安全入门必修的渗透测试框架实战指南

Tabby终端工具终极指南：现代开发者的统一终端解决方案

gInk屏幕标注工具终极指南：3分钟学会免费高效的Windows数字白板

utipmitool日志系统解析：tracing框架在IPMI工具中的应用实践

X-diagnosis社区贡献指南：如何参与开源项目开发与维护

UnblockNeteaseMusic终极教程：3分钟解锁网易云音乐灰色歌曲的完整方案

视频摘要与问答Agent：长视频时间定位与记忆增强架构

从AES到国密：加密算法实战实现、性能对比与安全避坑指南

终端里的 AI 驾驶舱：Claude Code 斜杠命令深度解析

华为OD机试2025C卷-字符串变换最小次数[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-内存资源分配[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战