11B参数狂飙350 tok/s!Step 3.5 Flash极速AI模型登场

发布时间:2026/7/3 8:12:11

11B参数狂飙350 tok/s!Step 3.5 Flash极速AI模型登场 11B参数狂飙350 tok/sStep 3.5 Flash极速AI模型登场【免费下载链接】Step-3.5-Flash-Base项目地址: https://ai.gitcode.com/StepFun/Step-3.5-Flash-Base导语StepFun公司推出的Step 3.5 Flash Base模型以1960亿总参数、110亿激活参数的稀疏混合专家MoE架构实现了高达350 tokens/s的生成速度同时在推理、编码和智能体能力上达到行业前沿水平重新定义了大模型效率与性能的平衡。行业现状效率与性能的双重挑战当前大语言模型领域正面临参数军备竞赛与落地效率瓶颈的双重挑战。一方面主流闭源模型参数规模已突破万亿推理能力持续提升但部署成本高昂另一方面开发者与企业对模型响应速度、硬件门槛和数据隐私的需求日益迫切。据行业报告显示超过68%的企业AI应用因推理延迟问题影响用户体验而本地部署的算力成本仍是中小企业采用大模型的主要障碍。在此背景下兼具高性能与高效率的模型成为市场新宠。模型亮点四大核心突破重新定义效率标杆Step 3.5 Flash Base通过创新架构设计在四个关键维度实现突破1. 稀疏激活的MoE架构11B参数实现196B性能采用288个路由专家1个共享专家的精细设计每token仅激活Top-8专家使模型在保留1960亿参数记忆容量的同时实际执行仅相当于110亿参数模型的计算量。这种智能密度设计让模型既能处理复杂推理任务又保持了轻量级部署的优势。2. 多token预测技术单流编码峰值达350 tok/s独创的3路多token预测MTP-3技术通过滑动窗口注意力与密集前馈网络结合实现单次前向传播生成4个token。在典型场景下可达到100-300 tok/s的生成速度单流编码任务中更是创下350 tok/s的极速表现较同类模型提升2-3倍。3. 混合注意力机制256K上下文的成本优化采用3:1比例的滑动窗口注意力SWA与全注意力混合架构每3层SWA层配置1层全注意力层在支持256K超长上下文窗口的同时将计算开销降低40%以上解决了传统长上下文模型的效率难题。4. 本地化部署友好高端消费级硬件即可运行针对本地部署进行深度优化可在Mac Studio M4 Max或NVIDIA DGX Spark等高端消费级硬件上流畅运行无需依赖昂贵的企业级GPU集群在保证数据隐私的同时大幅降低部署门槛。性能表现对标闭源模型的开源新势力在基准测试中Step 3.5 Flash Base展现出与顶级闭源模型相当的性能水平在BBH推理基准达到88.2分MMLU综合评测85.8分GSM8K数学推理88.2分。特别值得注意的是其编码能力HumanEval评测81.1分SWE-bench Verified达到74.4%Terminal-Bench 2.0则获得51.0%的成绩证明其在复杂编程任务和智能体操作方面的突出表现。与同类开源模型相比Step 3.5 Flash Base在激活参数仅11B的情况下多项指标超越了激活参数15B-37B的竞品充分验证了其架构设计的先进性。官方推荐推理参数为通用对话场景temperature0.6、top_p0.95推理/智能体场景temperature1.0、top_p0.95。行业影响开启高效智能体时代Step 3.5 Flash Base的推出将对AI行业产生多重影响首先其开源特性包括训练代码库SteptronOss和即将开源的SFT数据将加速学术界对MoE架构的研究与应用其次极速推理能力为实时智能体应用奠定基础特别是在代码助手、自动化运维和实时决策系统等领域最后本地化部署能力降低了企业采用大模型的门槛有望推动AI应用在更多行业的普及。结论与前瞻效率优先的大模型发展新方向Step 3.5 Flash Base通过稀疏激活、多token预测等创新技术成功在性能与效率间取得平衡预示着大模型发展正从参数竞赛转向架构优化的新阶段。随着训练代码库的开放和持续优化该模型有望成为开源社区构建高效智能体的基础平台。未来我们或将看到更多结合领域知识微调的垂直行业版本进一步释放高效大模型的应用潜力。【免费下载链接】Step-3.5-Flash-Base项目地址: https://ai.gitcode.com/StepFun/Step-3.5-Flash-Base创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关新闻