Step 3.7 Flash发布:Flash价格和效率,Pro级别的Agent能力

发布时间:2026/6/1 8:53:39

Step 3.7 Flash发布:Flash价格和效率,Pro级别的Agent能力 模型竞争正在从更聪明转向更实用。模型能不能独立干活活干得好不好干活的成本能不能承受出了岔子能不能自己兜回来这些都是用户真正在乎的。阶跃星辰发布了Step 3.7 Flash一款196B参数、11B激活的高效Agent模型最高支持400 TPS推理速度定位直指真实场景下的智能体效率。这可能是目前同等规模下Agent能力最均衡的Flash模型。Step 3.7 Flash的核心亮点集中在四个方面原生多模态理解与行动能力、搜索能力的深度增强、工具调用的稳定性提升、以及主流Agent生态的兼容适配。官方用了六个字概括“See. Think. Act.”看见、思考、行动。能写代码也能跨框架干活写代码是Agent最硬核的基本功。代码是数字世界里Agent行动的载体也是最纯粹的规划、执行、观察、迭代循环。编码能力的走向很大程度上预示了Agent能力的上限。基础模型正在从回答问题转向采取行动而在数字世界里行动的主要形式就是代码。Step 3.7 Flash在这个方向上投入很大SWE-Bench Pro拿到56.3%比上一代Step 3.5 Flash提升5个百分点Terminal-Bench 2.1拿到59.6%提升6.1%。SWE-Bench Verified上得分76.5%Step 3.5 Flash是74.4%。SWE-MTLG上72.4%Step 3.5 Flash是67.4%。在同等规模的Flash模型里这个成绩够看。跟DeepSeek V4 Flash的55.6%和55.1%相比Step 3.7 Flash在SWE-Bench Pro和Terminal-Bench 2.1两个基准上都略占上风。更有意思的是跨框架的稳定性。实际生产中代码Agent不会只跑在某一个脚手架上Claude Code、KiloCode、Hermes Agent、OpenClaw、OpenCode、RooCode各家的提示词规范不同、工具模式不同、编排逻辑不同模型得在每套体系下都靠谱才行。阶跃星辰用自建的Step-SWE-Bench测了一把Step 3.7 Flash在6个Harness脚手架上的平均通过率67.08%Step 3.5 Flash只有56.50%而且每个框架上的差距都明显缩小了。Claude Code上Step 3.5 Flash本来就表现不错Step 3.7 Flash略低一点71.50%对73.00%。但在OpenClaw和RooCode上Step 3.5 Flash分别只有47.00%和43.00%Step 3.7 Flash直接拉到了67.00%和64.50%提升幅度分别为20和21.5个百分点。跨框架的均衡性对工程落地来说比单点高分更有价值。还有一个值得关注的机制Advisor Mode顾问模式。Step 3.7 Flash全程自己掌控任务流程调用工具、读取结果、反复迭代只在少数关键节点请更大的顾问模型出主意比如规划阶段或者连续失败后的恢复。思路来自Anthropic提出的advisor策略小模型当执行者大模型当顾问大部分时间跑在执行者的成本线上。开启Advisor Mode后Step 3.7 Flash做到了Claude Opus 4.6编码性能的97%单任务成本0.19美元Claude Opus 4.6是1.76美元差了将近9倍。不开Advisor Mode、单跑Flash加Advisor的方式成本更低0.12美元SWE-Bench Verified得分73.7%。加了Advisor Mode后得分76.3%Claude Opus 4.6是78.7%。花九分之一的钱拿到97%的效果。搜得广搜得深还能自己判断对一个Flash级别的模型来说把所有知识塞进参数里不现实更聪明的做法是让模型在需要时主动调用外部知识。Step 3.7 Flash把重点放在搜索规划、证据筛选和信息综合上把搜索从外挂插件变成了推理流程的原生部分。搜索不再是模型遇到不懂的问题才去翻的参考书而是推理链条里自然的一环。几个关键数据HLE with Tools得分47.2%Step 3.5 Flash纯文本模式只有35.7%提升超过11个百分点超越DeepSeek V4 Flash的45.1%和Gemini 3.5 Flash的40.2%。BrowseComp得分75.8%逼近Claude Opus 4.7的79.3%和Kimi K2.6的83.2%。DeepSearchQA的F1分数92.8%和1T参数、32B激活的Kimi K2.6的92.5%几乎打平。ResearchRubrics得分71.68%比GPT 5.5的61.50%高出一截接近Claude Opus 4.7的73.92%。在深度检索和长程研究类任务上Step 3.7 Flash用Flash的成本做到了接近Pro级的效果。能看懂图也能动手操作Step 3.7 Flash是阶跃星辰第一款原生支持视觉输入的Flash模型总参数196B加上1.8B的ViT视觉Transformer激活参数11B。视觉能力是Agent理解真实世界的关键入口。产品界面、文档、图表、自然场景模型都能看懂还能根据看到的内容写代码或调用工具来执行操作。视觉识别方面Step 3.7 Flash搭配Visual Search视觉搜索工具后在SimpleVQA上拿到79.16%和体量大得多的模型打平。WorldVQA上拿到58.10%超过Kimi K2.6的55.98%、GLM 5V Turbo的47.81%和GPT 5.5的54.58%。BC-VL上58.96%同样领先Kimi K2.6和GLM 5V Turbo。Visual Search的核心价值在于弥补Flash模型参数量有限带来的知识缺口。长尾实体、刚出现的新概念参数里没有的通过视觉搜索从外部补上最终效果能跟五倍大小的模型站在同一排。视觉感知方面搭配Python工具裁剪、缩放、画框、画像素等代码操作Step 3.7 Flash在高分辨率图像的细粒度感知上表现突出。V*基准得分95.29%HR-Bench 4K得分89.13%HR-Bench 8K得分86.34%VisualProbe得分65.05%。团队有个特别的发现。Step 3.7 Flash在测试中自发地把视觉工具和非视觉工具组合起来完成复杂任务而训练时从未显式教过它这么做。组合泛化能力属于模型自己悟出来的。组合能力的涌现说明模型已经理解了任务结构在自主规划工具链而非机械地执行指令。GUI图形用户界面操作是另一个视觉能力维度。很多真实任务活在聊天框和命令行之外Agent得能看、能点、能验证。Step 3.7 Flash在Android Daily基准上拿到61.87%超过Kimi K2.6的53.36%和GLM 5V Turbo的51.68%仅次于Gemini 3 Flash的63.21%。相比去年发布的Step-GUI稳定性、鲁棒性和长程完成度都有明显提升。模型写完前端代码后主动打开GUI去测试页面效果检查交互元素再根据看到的画面修改代码。写代码和看界面两件事它自己串起来了。代码加GUI的组合行为同样没有被显式训练过在测试中自然涌现。企业场景干得完干得稳企业级任务对Agent的要求很现实。在动态环境里独立执行任务还得有垂直领域的专业能力。先说自主执行。企业工作本质上依赖两根支柱动态环境中的自主任务执行以及深度的垂直领域知识。Step 3.7 Flash在这两方面都做了针对性优化。它能把一整块知识型工作从头做到尾自己规划、自己搜索、自己提取关键信息、自己编排工具最后交付可用成果中间不需要人干预。它同时处理截图、复杂文档、密集电子表格等混合输入视觉上下文和数字资产一起解析。模型把意图理解、多模态感知和Agent执行串成一条线从理解到行动没有断点。工具编排方面Toolathlon得分49.5%Step 3.5 Flash只有33.3%提升超过16个百分点ClawEval-1.1得分67.1%Step 3.5 Flash只有43.6%提升超过23个百分点体现的是长时间、多工具、真实环境下的自主执行能力。长时间的Agent运行最怕漂移和工具调用失败。Step 3.7 Flash在这两点上控制得比较好。它驱动的工具范围覆盖终端、浏览器、Office工具、搜索引擎等能保持长时间运行的连贯性。再说垂直知识。阶跃星辰跟金融、会计、数据分析等领域的专业人士深度合作把行业原生知识嵌入模型。制造排产调度、工程热处理分析这类场景都能独立跑通。GDPval覆盖44个职业得分45.8%Step 3.5 Flash只有27.8%提升超过18个百分点。Tau2-bench Telecom不同推理难度层级上通过率超过98%。长上下文方面AA-LCR得分63.9%Step 3.5 Flash只有45.5%提升近20个百分点跟DeepSeek V4 Flash的63.7%基本持平。Step 3.7 Flash已在阶跃星辰开放平台platform.stepfun.ai全球、platform.stepfun.com中国区、OpenRouter和NVIDIA NIM上线后续DeepInfra、Fireworks AI、Modal也会跟进。部署方面支持云端、数据中心和本地环境128GB以上统一内存的Mac Studio/MacBook Pro、NVIDIA DGX Station、AMD Ryzen AI Max 395设备都能跑。推理侧兼容vLLM、SGLang、Hugging Face Transformers、llama.cpp模型开发侧已接入NVIDIA Nemo生态包括AutoModel、Megatron Core和Megatron Bridge也可通过NVIDIA NIM推理微服务实现本地、云端或混合部署。模型权重与代码也已在GitHub、HuggingFace、ModelScope开源。Step 3.7 Flash用11B的激活参数、0.19美元的单任务成本把Agent模型性价比推到了新位置。参考资料https://static.stepfun.com/blog/step-3.7-flash/https://github.com/stepfun-ai/Step-3.7-Flashhttps://huggingface.co/stepfun-ai/Step-3.7-Flashhttps://modelscope.cn/models/stepfun-ai/Step-3.7-Flash

相关新闻