
近日北京智源人工智能研究院简称智源研究院正式发布重磅验证成果六款AI芯片、三大模型、同构异构千卡——众智FlagOS以统一技术栈完成AI训练“全要素”验证。作为本次验证的核心参与厂商之一摩尔线程基于旗舰级AI训推一体全功能GPU智算卡MTT S5000完整适配了FlagOS训练全要素软件栈——包括FlagScale系统调度决策框架、Megatron-LM分布式训练框架、Transformer Engine加速库、FlagGems与Triton算子库以及FlagCX通信库。在此次严苛的验证中MTT S5000面向Qwen3-0.6B语言模型完成了1T Tokens从头训练验证实现连续6天以上、超过14000步的无中断稳定训练。训练所得模型 Loss 曲线与基线高度一致平均相对误差控制在0.82%以内在标准下游任务评测中较行业标杆基线英伟达提升1.65个百分点充分验证了全功能GPU算力在大模型端到端训练中的稳定性与有效性。长周期高负载验证4机32卡无中断6天稳定训练此次FlagOS全要素适配与验证工作旨在检验多元AI算力在统一软件栈下的端到端训练能力。摩尔线程与智源团队紧密协作高效完成了底层适配与系统调优并于春节前正式启动全流程训练验证。在实际训练中摩尔线程采用4机32卡配置面向 Qwen3-0.6B语言模型开展训练。在超过6天的连续训练周期内系统稳定完成 1T Tokens 数据量的超过14000步迭代期间未发生任何软硬件中断。这一结果回应了业界对国产算力大规模训练稳定性的核心关切也进一步证明了基于MTT S5000构建的训练集群在长时间、高负载场景下的可靠性充分验证国产算力已具备支撑企业级大模型预训练任务的能力。精度稳定对齐Loss曲线高度一致评测效果优于基线大模型训练的核心诉求不仅在于算力规模与性能更在于训练过程中的稳定性、收敛效果和最终模型质量。其中训练精度是基石下游任务评测效果则是检验训练成效的关键指标。在FlagOS统一软件栈的调度下采用完全对齐的数据集和训练参数基于MTT S5000集群的训练过程呈现出与国际主流产品基线高度一致的Loss收敛曲线平均相对误差控制在0.82%以内。与此同时在标准的下游任务评测中基于MTT S5000训练的模型取得了比行业标杆基线高出1.65个百分点的结果表现。与基线评测偏差的计算方法后面的计算方式类似Qwen3-0.6B评测结果正数是优于基线这一结果表明开发者基于公开的模型结构与数据集即可在摩尔线程MTT S5000算力平台上获得与国际主流平台精度相当并在部分评测指标上实现更优表现的大模型训练效果。此外摩尔线程基于MTT S5000的训练能力已在更大规模场景中得到验证。今年1月依托摩尔线程MTT S5000千卡智算集群FlagOS成功完成智源自研具身大脑模型RoboBrain 2.5的全流程训练与优化验证。结果显示其Loss曲线与国际主流产品基线高度一致最终结果相对误差小于0.62%在64卡至1024卡规模区间内多组实验均实现超过90%的线性扩展效率。该案例表明摩尔线程基于MTT S5000的训练能力不仅可支撑长周期端到端验证也具备向更大规模、更复杂模型场景持续延展的能力。RoboBrain2.5模型评测效果端到端训练Loss曲线软硬创新协同打造高质量大模型训练底座此次验证成绩的取得离不开摩尔线程在芯片架构、通信能力、计算单元协同以及FP8训练支持等方面的持续打磨。基于MTT S5000摩尔线程正不断完善面向大模型训练的软硬件能力为训练稳定性、精度表现和规模扩展提供坚实支撑。▼架构级精度优化深入打磨矩阵乘法GEMM算子矩阵乘法GEMM是大模型训练中的核心算子之一其数值精度直接影响Loss曲线的收敛表现与最终模型效果。围绕这一关键环节摩尔线程团队在MTT S5000的架构设计阶段便针对浮点运算的舍入模式、累加路径等关键计算链路进行了精细化优化。这种来自架构层面的持续打磨使得MTT S5000在长时间训练过程中保持更稳定的数值表现为模型训练精度对齐及下游评测效果提升提供了坚实的底层保障。▼ACE异步通信引擎让计算与通信更高效并行在大规模分布式并行训练中卡间通信往往会与计算任务争抢带宽及核心资源成为制约扩展效率的瓶颈。MTT S5000创新性地内置了ACEAsynchronous Communication Engine异步通信引擎作为独立的硬件通信单元能够在不占用计算核心资源的情况下高效完成跨卡间的all_reduce、all_gather等集合通信操作。得益于ACE通信与计算得以更深度地并行协同——当Tensor Core张量计算核心在进行繁重的矩阵运算时ACE已在后台并行完成梯度同步为大规模训练带来更高的资源利用效率。摩尔线程在千卡规模训练中能保持超过90%的线性扩展效率正是这一设计优势的重要体现。▼多计算单元协同Tensor Core与Vector Core高效配合为了更好适配大模型训练中多样化的计算负载MTT S5000在算力单元的设计上对Tensor Core与Vector Core向量计算单元进行了针对性的配置与协同优化。在实际调度中密集的矩阵运算交给Tensor Core处理而LayerNorm、Softmax、激活函数等偏向内存或带宽密集型算子则交由Vector Core高效执行。基于这一硬件特性摩尔线程联合智源团队对FlagOS进行了深度的软件栈调优最终在FlashAttention等关键算子上实现了超过90%的计算资源利用率进一步释放了平台的训练潜力。▼原生FP8支持协同MT-Megatron稳定高效释放Grouped GEMM潜力随着模型参数规模迈入千亿甚至万亿级别低精度训练已成为提升训练效率的重要方向。MTT S5000在硬件层面原生支持FP8数据精度为更高吞吐的大模型训练提供了基础能力。通过底层算子库的高效优化其FP8 Grouped GEMM性能在实际场景中取得了超过700TFLOPs的性能表现。同时摩尔线程对MT-Megatron分布式训练框架进行了深度适配与优化进一步提升了FP8训练在主流大模型上的稳定性与可收敛性能够为包括DeepSeek-V3在内的大模型训练提供有效支撑。从训练稳定性、收敛精度到下游任务效果摩尔线程基于 MTT S5000 交出的这份成绩单表明在统一技术栈下国产全功能GPU不仅验证了大模型端到端训练的可用性也展现出在实际训练效果上持续提升的潜力。北京智源人工智能研究院副院长兼总工程师林咏华表示“长期以来‘对齐CUDA’只是行业在缺乏替代方案下‘不得已为之’的对齐标准。但如果能获得比 CUDA 更优的实际训练效果才是产业界共同的期待才能让系统架构百花齐放、勇于创新。摩尔线程在训练实测中超过了国际主流产品的表现证明了这种期待已经有实现的可能性了。”未来摩尔线程将继续深化与智源研究院及生态伙伴的合作以自主创新的全功能GPU算力底座推动多元算力从“普适”走向“普惠”为中国大模型研发提供开放、高效、可规模化复制的“国产算力训练范式”。