
随着人工智能加速进入机器人、工业设备和更多物理场景AI 芯片的能力边界也在发生变化。过去许多智能系统主要遵循“云端离线训练、设备本地推理”的模式模型在云端完成训练部署到设备后负责执行推理任务。但在具身智能等真实场景中这一模式正在面临新的挑战。机器人所处的环境并不是静态的任务需求也会不断变化。对于长期运行在家庭、园区、商服、工业协作等场景中的机器人而言仅依靠固定模型完成任务已经难以满足持续适应和能力迭代的需求。在这一背景下AI 芯片不再只是承担推理计算的硬件载体也开始被赋予持续学习和动态适应的新要求。近日星凡智能正与西安交通大学自主系统与智能芯片研究团队围绕“片上自学习 AI 芯片”方向开展产学研合作。其中片上自学习训练是双方合作中的重要成果之一旨在推动 AI 芯片从“能算”进一步走向“会学”。据了解西安交通大学自主系统与智能芯片研究团队由孙宏滨教授领衔长期聚焦大模型轻量化、智能芯片架构与电路设计、软硬件协同设计等方向具备较强的科研积累与工程攻关基础。所谓片上自学习训练强调的是 AI 芯片在部署到真实场景后不只是执行推理任务还能够基于新数据、新环境和新任务在设备本地完成一定程度的学习与更新。其核心价值并不是让芯片简单运行更多模型而是让智能体具备持续适应真实世界的能力。对于具身智能机器人来说这一能力尤为关键。机器人不是一次性部署的软件而是在真实环境中持续运行的物理智能体。它需要在感知、理解、决策和执行过程中不断积累经验并根据场景反馈优化能力。片上自学习训练的意义正在于让芯片从单纯的推理加速器逐步成为支撑智能体长期运行和能力进化的算力底座。不过让 AI 芯片具备本地学习能力并不容易。相比推理任务训练过程通常更加复杂不仅涉及前向计算还包括反向传播、梯度计算、参数更新以及大量中间特征存储。对于云端服务器而言这些任务可以依靠大规模算力和充足存储资源完成但对于机器人、边缘设备和低功耗终端而言算力、存储和带宽都受到严格限制。因此片上自学习训练的难点并不只是“让芯片学习”而是如何实现“本地高效学习”。如果算法侧减少了计算量但数据结构、访存方式和硬件计算通路没有同步优化算法上的收益也难以真正转化为系统级效率提升。围绕这一问题星凡智能与西安交通大学自主系统与智能芯片研究团队从算法和硬件两个层面进行联合优化。在算法侧双方针对片上训练中的高计算量与高访存量问题采用更适合硬件执行的紧凑表示与轻量化算子处理降低训练过程中的计算与数据搬运负担。同时针对训练过程中关键层的计算引入基于近似统计量的计算方法对反向传播过程中的特征梯度图进行优化为降低整体训练开销提供算法基础。在硬件侧双方进一步围绕神经网络权重的数据特性设计存储结构和计算通路提高数据计算与数据搬运效率同时通过统一化计算调度和并行化执行策略提升片上计算阵列的资源利用率使算法侧的优化能够真正转化为芯片层面的效率提升。这也意味着片上自学习训练并不是单一算法或单一芯片结构的优化而是需要从一开始就将算法、架构、电路和数据流统一考虑。传统方式更像是“算法设计完成后交给硬件执行”而片上自学习训练则要求算法与硬件共同设计让本地训练从理论可行走向工程可落地。从实验结果来看该设计在面积效率与能效方面取得提升面积效率达到 41.2 GOPS/mm²能效达到 90.63 TOPS/W相较先进对标方案归一化面积效率提升 2.19 倍归一化能效提升 1.85 倍。这些结果也为片上自学习训练在低功耗、小面积约束下的落地提供了验证基础。在应用层面星凡智能将这一技术方向与具身智能场景进行结合。其星核 R 系列被定位为面向具身智能场景的核心算力引擎主要面向机器人对视觉、语音、动作、环境和任务信息的实时处理需求支撑机器人“大脑”在本地高效运行完成视觉感知、语义理解、任务规划与实时决策。围绕机器人长期运行中的环境适应、任务学习和能力迭代需求星凡智能也在持续推动星核 R 系列向“越用越聪明”的能力方向演进。相比单纯强调“算得快”这一方向更关注机器人如何在真实场景中持续沉淀经验为长期运行和能力迭代提供支撑让机器人从“执行终端”进一步走向“自主智能体”。业内人士认为随着具身智能从实验室走向真实应用机器人系统对于本地智能、实时响应和持续适应能力的要求将不断提升。在此过程中具备算法—硬件协同优化能力的智能体芯片有望成为支撑具身智能规模化落地的重要基础设施。AI 芯片的竞争正在从单一算力指标逐步延伸到场景适配能力、持续学习能力和系统级能效优化能力。面向未来如何让芯片不仅“能算”还能够支撑智能体长期运行、持续适应和能力进化将成为智能体芯片发展的重要方向之一。星凡智能方面也表示公司将继续围绕智能体芯片与智能计算产品创新推动相关技术成果在具身智能等真实场景中落地让智能从数字世界进一步进入物理世界。