
个人主页代码不加冰欢迎来访作者简介java后端学习者❄️个人专栏LeetCode刷题日记 苍穹外卖日记SSM框架深入JavaWeb✨命运的结局尽可永在不屈的挑战却不可须臾或缺大家好我是代码不加冰这里给大家分享一个最近比较热点的内容。从“随便用”到“省着用”只隔了一次预算复盘会如果你在腾讯或者字节工作最近可能已经注意到了上个月还能随意调用的混元、豆包大模型API这个月突然开始“限额”了。原本每月几十万甚至上百万Token的免费额度被悄悄下调到了几万。有的部门甚至直接取消了员工个人调用权限统一收归到“按项目申请”。不是传言。这是正在发生的事情。以前随便跑现在跑之前要想想一位腾讯某事业群的员工向笔者吐槽“去年我们做一个需求随手写个脚本调混元API跑几百条数据做测试很常见的事。那时候觉得大模型就是工具箱里的一把扳手想用就用。但这两个月不行了。部门的Token额度被砍了大约70%现在跑一次批量测试之前要先想清楚真的需要跑全量吗能不能抽样能不能用规则代替”字节跳动的情况类似。一位来自抖音业务线的产品经理说“豆包的额度以前基本是放开的我们做A/B测试、做内容评估大量依赖大模型辅助。上个月底收到通知个人账号的每日调用上限从10万Token降到了2万。说实话2万Token听着不少但你要是跑几十条视频摘要很快就没了。”这不是个例是“降本增效”进入深水区2023年到2024年国内大厂在大模型上是不计成本投入的。内部员工用自家模型——那叫“肥水不流外人田”鼓励用、放开用。一方面是为了测试模型能力另一方面也是一种员工福利。但到了2026年风向变了。“降本增效”这个词从2023年喊到现在前面砍的是差旅、福利、外包预算。现在轮到大模型了。原因很直接第一大模型调用不是免费的。即使是对内调用也要消耗计算资源。GPU服务器、电费、运维成本这些都是真金白银。过去两年很多公司的内部API成本翻了几倍甚至十几倍——因为用的人越来越多、用的场景越来越杂。第二很多内部调用其实是不必要的。产品经理拿大模型写周报、工程师让大模型写不重要的测试用例、运营让大模型批量生成标题……这些需求在“放开用”的时候看起来很合理但一算账加起来是个惊人的数字。第三预算收缩了。2026年大多数互联网公司的增长预期都调低了预算自然跟着收紧。大模型作为一个相对新兴的成本项又不像服务器、带宽那样是“刚需”自然成了被优化的对象。大厂的逻辑变了从“放开用”到“用在刀刃上”腾讯和字节内部传递的信号是类似的不是不用是要聪明地用。具体怎么操作我了解到几种做法1. 分层配额制不同岗位、不同职级的员工获得不同的Token额度。核心研发团队额度高边缘支持岗位额度低。需要更多走审批流程说明业务价值和预期收益。2. 场景分级一些明显的“低价值”场景被直接限制或禁止。比如用大模型写内部周报、生成演讲稿、润色无关紧要的内部沟通消息——这些被视为“滥用”。而真正产生业务价值的场景如代码辅助、数据分析、用户洞察保留优先使用权。3. 内部成本可视化以前员工调用API看不到成本感觉像免费的。现在很多公司开始做“成本看板”——你调一次大模型花了公司多少钱清清楚楚写在监控页面上。一位腾讯员工展示了他收到的内部邮件截图“尊敬的同事您上个月API调用量超过部门平均值的300%产生成本约XX元。建议您在调用前确认是否必要。”别小看这个数字。当你亲眼看到自己“随手一跑”花了公司几十块钱的时候行为会自然收敛。4. 强制使用更便宜的模型很多公司内部同时部署了多个版本的大模型顶配版千亿参数、标准版百亿参数、轻量版几十亿参数。新规之下默认调用的是轻量版。只有明确需要复杂推理的任务才可以申请使用顶配版。大多数日常任务轻量版完全够用——但员工以前不管哪个顺手用哪个。员工怎么看从“不适应”到“理解但有点不爽”对于这个变化员工的态度分化明显。一部分人觉得合理“说实话以前确实有点浪费。我自己就经常让大模型帮我写一些其实不需要那么高智能的东西比如给同事发消息润个色什么的。现在想想确实没必要。”——字节某工程师“公司不是慈善机构。大模型服务器多贵啊如果每个人都不节制最后成本还不是摊到业务头上业务不赚钱年终奖从哪来”——腾讯某产品运营另一部分人则不太满意“我觉得这是‘既要马儿跑又要马儿不吃草’。公司天天喊着要用AI提效我们真的去用了又开始限制额度。到底要不要我们用”——某大厂匿名员工在内部论坛发帖“额度降了之后我现在做数据分析会犹豫。以前可以放心大胆地让模型跑各种角度现在得先自己想一遍只把最拿不准的地方交给模型。效率至少掉了30%。”——字节某数据分析师还有一层隐忧额度限制会不会影响创新“很多好的创意就是试出来的。你让我先审批再测试那试错成本就高了。不敢试就出不了新东西。”——腾讯某创新项目组成员这其实是一个必然的阶段冷静下来看这件事并不意外。任何一项新技术在企业内部的普及都会经历三个阶段第一阶段尝鲜期。技术新、成本高、使用者少。公司鼓励用不计成本。第二阶段滥用期。人人都想试试各种场景一拥而上。成本开始失控。第三阶段理性期。公司开始算账明确“什么场景该用、什么场景不该用”建立规则。大模型现在正处在从“第二阶段”到“第三阶段”的转折点上。Token额度下调不是公司“不给用了”而是公司在学习如何聪明地用。这也是健康的。如果放任成本无限增长最后的结果反而是整个项目被砍掉。现在控制一下细水长流对所有人都好。总结一下腾讯、字节最近调整内部大模型Token额度本质上释放了几个信号大模型不再是“免费的午餐”。即使是自家的模型使用也有成本而且这个成本正在被量化、被看见、被管理。“降本增效”进入细颗粒度阶段。从砍人头、砍福利细化到砍API调用次数。说明公司的成本管理在变得越来越精细。员工需要学会“聪明地用AI”。不是所有任务都需要大模型不是所有大模型调用都需要顶配版。这个认知正在从“建议”变成“规定”。对普通员工来说短期会有些不适。但从长远看这恰恰说明大模型已经从“花架子”变成了“真工具”——当一个东西开始被严格管起来的时候恰恰说明它真的有用。而那些抱怨“额度不够”的人也许应该问自己一个问题我之前用掉的那些Token到底创造了多少真实价值如果答案是模糊的那额度降了也许不是坏事。