国产GPU组了个开源局,把SGLang等核心开发者都摇来了!
金磊 发自 凹非寺量子位 | 公众号 QbitAI没有大厂高管站台一屋子却挤满了开源圈的熟面孔。随便往台下扫一眼就能对上好几个GitHub上的明星ID有目前大模型推理框架顶流SGLang的核心开发者BBufXiaoyu Zhang有主导下一代算子编程生态TileLang的维护者唐正举有操刀KVCache解耦与传输神器Mooncake的核心贡献者马腾有来自智源人工智能研究院、围绕Triton/FlagOS死磕AI编译器的肖航还有像R0CKSTAR这样在GitHub上异常活跃的硬核开发者。这场看似是开源圈极客们的面基会却着实是有点反差在身上的——活动的攒局者是国产GPU玩家摩尔线程。这事确实有点意思。因为过去提到国产GPU外界最容易想到的关键词往往还是硬件参数、显存容量、算力指标、生态替代、模型能不能跑起来。但这场SGLang × MUSA Meetup真正抛出的问题已经变了怎么让国产GPU真正进入大模型推理的主流开源工程链路说得更直接一点就是让SGLang、Triton/FlagOS、TileLang、Mooncake、KVCache、P/D分离、分布式通信、CI/CD、upstream PR这些东西能够围着国产GPU一起转起来。有一说一在整体听下来之后有一个非常直观的感受。那就是国产GPU的竞争已经不只是芯片参数之争转而开始迈向生态坐标之争。为什么这么说我们继续往下看。国产GPU开始“扩圈”了先看这场Meetup本身。它的主题很明确SGLang × MUSA。SGLang是当下大模型推理serving领域关注度很高的开源框架面向LLM和多模态模型核心目标是低延迟、高吞吐覆盖从单卡到大规模分布式集群的部署场景。这类框架之所以重要是因为今天的大模型落地早就不是“模型训练好了放上去跑”这么简单。真正进入生产环境后系统要处理的是一整套复杂问题。例如prefill和decode怎么拆KVCache怎么复用长上下文怎么省钱多轮对话怎么降TTFT大规模集群怎么调度新模型发布后怎么day-0 support出了性能gap怎么定位到具体kernel。第一个上台的是SGLang核心开发者BBuf。△SGLang核心开发者BBuf这个在GitHub上拥有27k星的开源推理框架现在已经是全球开发者部署大模型的首选。他带来的SGLang 2026 Q2 Roadmap每一条都踩在行业的痛点上针对DeepSeek V4的全链路优化包括W4A16量化、MegaMoE加速和稀疏注意力支持jit_kernel全面替代传统的sgl-kernel用TVM-FFI把编译速度提升了数倍再也不用等几个小时的wheel包Vibe Coding全面落地用AI agent自动分析profiler、定位性能瓶颈、提交PR5月前已经完成了超过60个优化任务多模态能力全面升级支持LTX2、Wan、混元视频等最新模型性能比其他框架最高快5倍。最让人印象深刻的是他展示的一组数据。SGLang通过P/D分离架构在12个H100节点上跑出了52.3k输入token/s/node、22.3k输出token/s/node的成绩比DeepSeek官方API还便宜5倍这个结果已经被全球10多个团队复现。紧接着上台的摩尔线程ContributorR0CKSTAR带来了全场最硬核的工程实践分享。△摩尔线程工程师R0CKSTAR他用一句话总结了过去半年的工作SGLang on MUSA已经完成了从环境构建到CI测试的全链路打通。这意味着什么现在你只要克隆SGLang的官方仓库安装sgl-kernel和sglang就能在摩尔线程MTT S5000显卡上直接运行几乎所有主流大模型。DeepSeek、通义千问3.5、GLM-4.5、FLUX、Wan这些热门模型都已经完成了深度优化。他特别提到了MUSA的三层CUDA兼容栈。过去适配一个推理框架要改几千行代码现在只要在开头加一行import torchada99%的CUDA代码就能直接运行。这个看似简单的改动解决了国产GPU生态的一大痛点。据了解截至5月12日摩尔线程在SGLang主线累计提交47个PR其中41个已合入完成了从环境构建到分布式推理的全链路打通。智源的肖航则带来了DeepSeek V4在MUSA上的Day0 适配成果。△智源AI编译器研究员通过FlagOS的Triton算子优化和摩尔线程的SQMMA张量加速引擎他们把DeepSeek V4的首token延迟降低了56.7%吞吐量提升了23%。对此肖航表示我们没有做什么黑魔法就是把两个最关键的算子优化到了极致。FP8 矩阵乘算子平均加速8.85倍稀疏注意力算子平均加速6.01倍这两个占了推理时间80%的算子一优化端到端性能自然就上去了。TileLang维护者唐正举的分享则让所有人看到了下一代算子编程的未来。△TileLang维护者唐正举这个2025年2月才开源的项目短短一年多就收获了6k星和133位贡献者连DeepSeek V4的核心kernel都是用TileLang写的正如唐正举所说用TileLang写FlashAttention只要50行Python代码性能和专家手写的CUDA一模一样。并且从他在现场展示的对比图来看同样的GEMM算子TileLang用15行代码达到了CUTLASS的性能代码量减少了90%。最后上台的阿里云马腾带来了Mooncake项目的最新进展。△Mooncake Contributor 马腾这个专注于KVCache解耦的项目现在已经是SGLang、vLLM等主流推理框架的标配。他展示的一组较为吸睛的数据通过RDMA P2P权重更新Kimi K2 1T模型的权重同步时间从53秒降到了7.2秒加速了7.37倍EPD三级解耦架构让多模态模型的首token延迟降低了6-8倍HiCache Mooncake后端让多轮对话的缓存命中率超过90%。至此这场Meetup的拼图基本完整——SGLang是推理框架主链路MUSA是国产GPU底层平台FlagOS/Triton解决关键算子优化TileLang降低高性能kernel编程门槛Mooncake补上KVCache和生产部署。这便是一条较为完整的工程链路。为什么摩尔线程能把他们摇来这个问题的答案不能只归结为办了一场活动。开源圈很现实大家愿意来核心原因不是谁会讲故事是这件事真的和他们正在做的工程问题有关。首先看MUSA本身的设计初心。摩尔线程CTO张钰勃在开场中解释MUSA是Meta-computing Unified System Architecture。△摩尔线程CTO张钰勃Meta-computing指向通用计算摩尔线程希望GPU尽量拥抱通用计算而不是给未来可计算的领域设限Unified则意味着摩尔线程产品希望遵循同一套统一标准避免不同产品线使用不同指令集和架构导致软件生态无法积累。更关键的一句话是MUSA不希望开发者为了使用MUSA而重新学习一套东西。这句话看似朴素其实直指国产GPU生态的痛点。开发者最怕什么不是新硬件本身是为了新硬件学习一整套新API重写一堆代码改完还进不了上游社区一更新又要重新补丁。如果一个国产GPU生态要求开发者从头学一遍那它面对的便是巨大的迁移阻力。所以MUSA的路线是尽量贴近开发者已经熟悉的GPU编程方式、API接口和使用习惯。底层实现可以不同但上层体验尽可能一致。三层CUDA兼容栈的意义就在这里。torch_musa负责把PyTorch和MUSA的基础能力接起来torchada负责让CUDA-first生态继续工作mthreads-ml-py负责把设备管理、拓扑、显存、MTLink、P2P等信息暴露给上层框架。用一句更通俗的话说摩尔线程在尽量把原来的路修到自己门口。这直接影响到开源社区协作的可行性。因为上游项目最看重的是低侵入、可维护、可复用。如果一个适配方案需要大面积改动主线代码后续每次rebase都痛苦上游很难接受。反过来如果适配可以通过更透明的方式完成PR就更容易被review也更容易持续跟随社区迭代。这就是从“我自己维护一个分支”到“我进入主线”的区别。再看生态结合。SGLang × MUSA是推理主链路打通。摩尔线程从去年开始把SGLang作为重点接入和贡献的开源项目经过大半年努力MUSA后端近期已经合入SGLang主线。后续不只是跟随feature也希望在框架层面贡献更多能力。这件事的意义在于国产GPU不再只是某个框架的外部适配对象已经开始成为主线生态的一部分。FlagOS × MUSA是关键算子和新模型适配。大模型推理的性能竞争越来越多发生在kernel、编译器、调度、低精度和通信层。DeepSeek V4 day-0适配这样的工作本质上考验的是从模型发布到工程落地之间的反应速度。能不能第一时间跑通能不能快速调优能不能在真实shape上找到更好的配置决定了生态跟不跟得上。Mooncake × MUSA是推理解耦和生产部署。KVCache的价值在Agent、多轮对话、长上下文时代被进一步放大。Mooncake与MUSA的结合不只是让某个缓存后端能跑在国产GPU上更是在探索跨实例KVCache共享、弹性扩缩容、缓存复用、原地升级这类生产级问题。TileLang × MUSA则是下一代算子生态的提前布局。如果未来更多模型和硬件都需要定制kernel算子编程不能永远停留在少数专家手里。TileLang这类DSL的价值是把高性能kernel编程变成更多开发者能上手的工程工具。这四条线合在一起才是摩尔线程能组局的底气。它把自己放进了大模型推理的真实工程网络里包括框架、算子、缓存、通信、部署、CI/CD、upstream等等。而这也是国产 GPU 生态真正要补的课。国产GPU的生态位正在走向协作如果把这场Meetup从更宏大的算力发展角度来看它的价值或许远超技术分享本身。过去几年国产GPU的生态困境是比较明显的。许多厂商习惯了闭门造车自己从头写一套深度学习框架自己攒一套算子库结果因为不符合主流开发者的习惯鲜有人问津。又或者有的厂商只是拉一个私有Fork做适配从来不向开源上游提交代码导致主流框架一更新自己的适配版本就成了无人维护的孤品。而现在摩尔线程给出了一个完全不同的答案全面融入全球开源生态去和世界上最聪明的一批人一起做事。在这场活动中我们频繁听到几个词Day-0 Support、Upstream PR、CI/CD。这说明国产GPU的生态位正在发生质变。摩尔线程不再只满足于做一个被动的适配者它要的是主动出击成为核心代码的“贡献者”甚至是未来架构的“共建者”。他们不仅仅是丢一个单点的Patch过去而是把一整套包含环境构建、PR提交、CI自动化测试、Release发布、文档维护在内的工程闭环深深地嵌入到了SGLang等顶级项目的血脉中。这种可持续的Upstream模式才是真正掌握生态话语权的方式。这场开源局还证明了一件事国产GPU已经走上了大模型推理开源生态的公共牌桌。在这个牌桌上已经坐着风头正劲的SGLang坐着死磕底层编译的Triton/FlagOS坐着重塑算子生态的TileLang坐着主导解耦架构的Mooncake。而现在国产GPU也可以拉开椅子从容地坐下来和这群明星玩家们一起打好大模型时代最关键的这把牌。一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 点亮星标 科技前沿进展每日见