12100黄大年茶思屋榜文“难题揭榜”第121期-计算领域难题第二期 完整题目整理

发布时间:2026/6/12 20:17:09

12100黄大年茶思屋榜文“难题揭榜”第121期-计算领域难题第二期 完整题目整理 “难题揭榜”第121期-计算领域难题第二期 完整题目整理基础信息发布日期2025-05-19最后更新2025-06-04 17:31浏览量446次出题组织先进计算与存储实验室反馈方式董晓文 xiaowen.donghuawei.com难题1多模态MoE专家负载预测和迁移基本信息题号难题1标题多模态MoE专家负载预测和迁移接口专家张梦阳 zhangmengyang4huawei.com董永汉 dongyonghanhuawei.com浏览量1796次技术背景MoE-LLaVA论文引入MoE提升模型准确度提出热门专家问题会导致负载不均衡。Uni-MoE论文引入4模态提出热门专家问题会导致负载不均衡。时间维度训练前期专家负载有波动后期逐渐稳定相邻步专家负载接近空间维度第一个MoE层Layer2负载有波动其它层相对稳定。Expert3成为热门专家既擅长处理Text部分也擅长处理ImageExpert2其次。技术挑战业界GPT4o、Gemini1.5和学术界UniMoE、MoE-LLaVA多模态模型引入了MoE框架但存在和LLM类似的热门专家问题不同多模态token有一定的规律但相比纯文本预测难度大。实验表明训练前期专家负载变化较快均衡迁移效果差。当前结果Uni-MoE模型在专家级、模态级和Token级视角下的工作流程表明Uni-MoE已经学会了一种特定的模式使得专家能够划分多模态任务。MoE-LLaVA分析了不同专家之间模态的分布发现各专家有自己的偏好。比如文本和图像的路由分布高度相似专家都能够同时处理文本标记和图像标记并且在深层文本和图片Token倾向于激活固定的两个专家在浅层激活的专家较为随机。针对GPT3 350M模型后续1000和2000步中预测专家负载比例的平均误差分别约为1.3%和1.8%负载预测和迁移可将训练时间减少多达1.73倍。已在昇腾MindSpeed平台实现MoE负载预测和迁移均衡效率和性能提升效果仍在优化。技术诉求基于昇腾MindSpeed平台提出一种面向多模态MoEMoE-LLaVA、Uni-MoE等的动态专家负载预测和迁移调度技术支持Text、Image、audio、video至少2模态。专家负载占比预测训练场景支持在2000步内误差5%评估方法参考论文加入预测模块时训练时延劣化20%。热门专家迁移调度针对30B多模态MoE模型、64卡集群、EP8支持热门专家迁移实现专家负载均衡端到端的训练时间降低70%评估方法参考论文。参考文献[1] Li J, Jiang Y, Zhu Y, et al. Accelerating distributed MoE training and inference with lina[C]//2023 USENIX Annual Technical Conference (USENIX ATC 23). 2023: 945-959.[2] Cong P, Yuan A, Chen S, et al. Prediction Is All MoE Needs: Expert Load Distribution Goes from Fluctuating to Stabilizing[J]. arXiv preprint arXiv:2404.16914, 2024.[3] Lin B, Tang Z, Ye Y, et al. MoE-llava: Mixture of experts for large vision-language models[J]. arXiv preprint arXiv:2401.15947, 2024.[4] Li Y, Jiang S, Hu B, et al. Uni-moe: Scaling unified multimodal llms with mixture of experts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2025.难题2生成式推荐Jagged零冗余均衡计算技术基本信息题号难题2标题生成式推荐Jagged零冗余均衡计算技术接口专家丰泳翔 fengyongxiang1huawei.com王燕飞 wangyanfei31huawei.com浏览量634次技术背景推荐是互联网的命脉业务Meta提出基于行为序列建模HSTU的新型生成式推荐架构GR统一的生成式推荐被认为是下一代推荐的范式但是推荐场景的天级高效训练、50ms超低延迟推理特性和Jagged序列对计算系统提出了更高的挑战和需求驱动芯片和系统架构的创新。技术挑战生成式推荐百亿级候选依赖自回归串行解码无法满足K级候选20ms极低时延约束需要创新推理范式用户行为序列Prefill和候选Decode计算均为计算Bound特征PD空间分离不适用。推荐用户序列长度方差极大GR模型序列并行架构下现有Dense计算方法会引入极大的计算开销Jagged计算形态对训练性能和显存占用优化显著但会引入动态shape和负载不均衡问题。当前结果当前Jagged序列在分布式训练时引入快慢卡问题导致等待空泡性能相比单卡劣化40%目前通过序列分档仅提升10%性能难以达到极致性能。Meta利用Jagged的不规则特性基于GPU设计实现Jagged融合算子消除计算冗余目前未有昇腾亲和的实现导致计算效率较低。技术诉求基于昇腾鲲鹏平台构建Jagged Tensor的零冗余均衡计算技术不限于通过行为序列分组均衡、零冗余并行Decode和细粒度动态切分等技术实现计算通信均衡和零冗余计算测试Baseline参考论文序列稀疏度50%GR训练均衡计算加速0.1-1B模型参数下1K-8K序列长度GR精排模型分布式训练16卡MFU提升10%20%-30%、线性度0.9GR精排推理性能加速1x并行推理线性度0.950ms SLA约束。高精度稀疏化探索低精度和序列稀疏采样技术GR模型精度无损或损失小于万分之一。参考文献[1] Zhai, Jiaqi, et al. “Actions Speak Louder Than Words: Trillion-Parameter Sequential Transformers for Generative Recommendations.” arXiv preprint arXiv:2402.17152 (2024).[2] Lv, Xiao, et al. “MARM: Unlocking the Future of Recommendation Systems through Memory Augmentation and Scalable Complexity.” arXiv preprint arXiv:2411.09425 (2024).难题3NPU-PIM协同的大模型推理算子优化基本信息题号难题3标题NPU-PIM协同的大模型推理算子优化接口专家陶冶 taoye38huawei.com黎高鹏 gaopeng.lihuawei.com浏览量1337次状态已揭榜技术背景大模型推理通常分为Prefill阶段和Decode阶段Decode阶段是带宽瓶颈主要的耗时在于模型权重的加载通常引入PIM单元将待计算的数据传输到存储模型权重的存储单元进行存内计算降低时延和能耗提高性价比。NPU和PIM单元亲和的数据排布方式存在差异权重复用存在挑战。当终端设备同时存在NPU和PIM两类设备时在执行大模型推理服务时如何充分发挥两个硬件的能力特性在利用PIM单元实现端侧大模型推理时延低功耗的前提下避免占用过多存储容量等问题。技术现状与挑战为了利用PIM单元加速大模型Decode流程中的GEMV计算大模型的模型权重在内存中的排布方式存在一定的限制但在满足限制的前提下可以根据系统的需求对数据排布的方式进行一定程度的自定义涉及以实现最优性能。NPU设备的cube单元执行GEMM计算需要将权重数据在多级缓存加载的过程中转化为特定的数据格式例如NZ、ZZ、ZN等。其中数据加载过程支持普通数据搬运、增强数据搬运、切片数据搬运以及随路格式转换但不同的数据搬运方式带宽存在差异。若数据格式不适合cube单元使用且现有指令均无法高性能实现数据的变换然后再交给cube处理。技术诉求算法设计同时适用于NPU和PIM单元的数据排布格式及对应的NPU和PIM数据加载和计算方案。性能优化相对只存在同规格NPU没有PIM单元的设备2K序列长度下TBT时延降低80%TTFT不增加内存占用增加小于5%。相对同设备下NPU和PIM单元不考虑存储约束的最低时延方案2K序列长度下TTFT时延增加小于20msTBT不增加。难题4基于异构算力的端侧大模型复杂应用加速基本信息题号难题4标题基于异构算力的端侧大模型复杂应用加速接口专家余恩宇 yuenyuhuawei.com黎高鹏 gaopeng.lihuawei.com浏览量1718次状态已揭榜技术背景在RAG和Agent等复杂真实场景多种数据源的知识库构建检索和LLM Inference的组合导致多次检索和推理交叉形成复杂工作流。未来端侧算力底座可能由CPU-NPU-PIM异构算力组成当前推理框架无法实现复杂工作流与异构算力最优匹配调度和并行需结合端侧异构算力对应用端到端的Pipeline进行优化。技术现状与挑战在端侧RAG和Agent应用的复杂工作流中一个请求包含多次检索和推理当前端侧实现只是将各个模块组合起来CPU和NPU串行执行对每个模块单独进行优化没有一个具备一定泛化性的自动应用Pipeline优化方案。业界已有一些在云侧的应用端到端加速优化但主要优化目标是系统的吞吐量端侧很多是小batch应用优化目标应该更多考虑端侧时延的影响。技术诉求典型端侧RAG和Agent应用的自动Pipeline优化分析和优化端侧典型RAG/Agent应用场景的Pipeline基于华为手机实现典型RAG和Agent应用的自动Pipeline优化在小batch场景端到端时延相对现有实现降低1.5倍以上。基于端侧异构算力的RAG和Agent应用加速策略针对优化后的端侧应用Pipeline、各个组件的负载和端侧异构算力(CPU/NPU/PIM)设计一套时延最优的负载分离部署、调度和无损加速策略基于华为手机典型RAG/Agent应用在小batch场景端到端时延相对现有实现降低3倍以上。参考文献[1] Lin C, Han Z, Zhang C, et al. Parrot: Efficient Serving of LLM-based Applications with Semantic Variable[C]//18th USENIX Symposium on Operating Systems Design and Implementation (OSDI 24). 2024: 929-945.[2] Tan X, Jiang Y, Yang Y, et al. Teola: Towards end-to-end optimization of llm-based applications[J]. arXiv preprint arXiv:2407.00326, 2024.难题5状态空间模型和Transformer模型的等价性证明基本信息题号难题5标题状态空间模型和Transformer模型的等价性证明接口专家王翔 wangxiang224huawei.com邹志强 zouzhiqianghuawei.com浏览量1962次状态已揭榜技术背景Transformer模型中自注意力机制的计算量和存储量随序列长度增长严重阻碍了大模型在长序列输入场景中的扩展能力尤其在资源受限的端侧部署时更为明显。诸如Mamba等状态空间模型利用不断更新状态空间的原理替代自注意力机制可实现常数级的计算量和存储量更适配于端侧部署。因此为指导状态空间模型的训练和开发亟需从理论层面证明状态空间模型和Transformer模型的性能等价性。技术挑战自注意力机制利用存储过往KV的形式在每一步推理时计算当前输入和过往所有输入的相关性而状态空间模型将历史信息压缩到固定大小的状态空间并采取迭代相加的形式依据当前输入更新状态。两者计算方式的差异增加了证明其等价性的难度。当前结果Albert Gu 和 Tri Dao证明了纯线性的状态空间模型可以被看作是一种使用半可分离掩码矩阵实现的结构化线性注意力机制。但带有softmax非线性函数的自注意力机制还未被证明与任何形式的状态空间模型等价。状态空间模型虽然在多个语言和视觉任务中展现出与Transformer相匹配甚至更好的性能Samy Jelassi等人用理论和实验证明在简单的复制和抓取任务中Transformer的训练和测试性能优于任意状态空间模型。如何修改模型架构弥补差异仍待解决。技术诉求理论证明等价性从数学原理上证明在特定任务下状态空间模型与Transformer模型的等价性或不足。提升状态空间模型性能的理论证明基于理论证明给予状态空间模型与Transformer等价的补偿方法包括但不限于记忆模块激活方式架构改造等并理论证明补偿后的模型计算复杂度低于原模型。提升状态空间模型性能的实验证明基于实验证明提出的新状态空间模型在典型大模型任务上精度不低于同规模Transformer并降低50%以上总计算量。参考文献[1] A Survey of Mamba. 2024[2] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality. ICML 2024[3] Repeat After Me: Transformers are Better than State Space Models at Copying. 2024以上为本期5道难题的完整信息整理已覆盖所有正文内容、技术指标与参考文献。

相关新闻