Tenstorrent:基于RISC-V的异构计算架构如何挑战AI芯片市场

发布时间:2026/5/21 7:26:29

Tenstorrent:基于RISC-V的异构计算架构如何挑战AI芯片市场 1. 项目概述Tenstorrent的野心与Jim Keller的蓝图在芯片设计的江湖里Jim Keller这个名字本身就代表着一种传奇。从AMD的K7、K8架构到苹果A系列、M1芯片的奠基再到特斯拉的自动驾驶芯片他参与的每一个项目都深刻影响了行业格局。所以当这位“硅仙人”在2021年加入一家名为Tenstorrent的初创公司并担任CEO时整个半导体圈都竖起了耳朵他这次又要颠覆什么答案比许多人预想的更为宏大。Tenstorrent并非仅仅在打造另一款AI加速芯片而是在下一盘融合了通用处理器与人工智能加速器的大棋。其核心目标是构建一个从底层指令集架构ISA到上层系统解决方案的完整、开放的软硬件生态直接瞄准数据中心和高性能计算HPC中增长最迅猛的AI负载。这不仅仅是设计一颗芯片更是在尝试定义下一代异构计算的基础设施形态。简单来说Tenstorrent想做的是“AI时代的计算底座”。这个底座需要同时具备两种能力一是强大的通用计算能力以处理复杂的控制流、数据预处理和模型中的非矩阵运算部分二是极致高效的专用AI计算能力用于执行大规模的矩阵乘加运算即张量运算。而Jim Keller团队选择的武器是开源的RISC-V指令集以及他们自研的、名为Tensix的AI加速核心。为什么这件事值得关注因为当前的数据中心AI计算市场正被NVIDIA的CUDA生态所主导其GPU虽然强大但本质上仍是较为通用的图形处理器演化而来。而Google的TPU、Graphcore的IPU等专用AI芯片则在通用性上有所妥协。Tenstorrent试图走一条中间道路通过将高性能RISC-V CPU与高度可编程的AI加速单元紧密耦合在保持灵活性的同时追求极致的能效比。如果成功这可能会为AI硬件赛道开辟一条新的技术路径。2. 核心战略解析为什么押注RISC-V在x86和Arm几乎垄断了服务器与移动计算市场的今天一家志在数据中心高性能芯片的初创公司选择从零开始基于RISC-V构建其CPU核心无疑是一个大胆甚至有些反直觉的决定。毕竟围绕x86和Arm的软件生态操作系统、编译器、库函数已经积累了数十年成熟度无可比拟。Tenstorrent做出这个选择背后是一套清晰的、基于长远发展的战略考量。2.1 挣脱架构束缚掌控创新节奏首先是对于“创新自主权”的极致追求。x86架构的指令集由英特尔和AMD两家公司严格掌控任何第三方想要设计兼容的CPU几乎不可能获得授权。Arm架构虽然通过授权模式开放但其架构演进的方向和节奏最终由Arm公司决定。正如Tenstorrent首席CPU架构师Wei-Han Lien这位参与设计了苹果A6、A7和M1芯片的大牛所指出的大公司内部的决策流程往往变得官僚化创新速度会放缓。当Tenstorrent为其AI加速器设计配套的CPU时他们可能需要支持一些新的数据类型例如BF16一种常用于AI训练的脑浮点格式。如果使用Arm提出这样的需求后需要经历漫长的内部评估、与众多架构被许可方的协调这个过程可能长达一两年。但在RISC-V的生态中由于指令集开源Tenstorrent可以直接与SiFive一家领先的RISC-V IP供应商这样的伙伴合作快速地将所需指令添加到其定制化的核心中。这种“没有中间商赚差价”的敏捷性对于在AI这个快速迭代的战场上竞争至关重要。注意这里的关键不是RISC-V本身比x86或Arm技术更先进而是其开放的商业模式赋予了设计者前所未有的“架构自由”。你可以像搭积木一样在基础指令集上添加自己需要的扩展指令而不必等待或请求某个“架构所有者”的批准。2.2 为异构计算量身定制其次RISC-V的模块化特性与Tenstorrent的异构计算愿景天然契合。一个典型的Tenstorrent芯片内部并非只有一种核心。它包含了用于通用任务的RISC-V CPU核心群和用于AI张量计算的Tensix核心群。这两种核心需要通过高效的一致性互联、共享内存等方式紧密协作。采用RISC-V允许Tenstorrent从最底层开始为这种异构互联设计最优的硬件支持。例如他们可以自定义缓存一致性协议、设计专用的高速片上网络NoC接口、甚至为CPU和AI加速器之间的数据搬运定义特殊的指令。如果使用Arm或x86这些底层的、涉及架构的改动将异常困难甚至被禁止。RISC-V则提供了画布让顶尖的架构师能自由地绘制最适合AI负载的芯片蓝图。2.3 长远生态与成本考量从更长远和商业的角度看RISC-V代表着一种“去中心化”的行业趋势。尽管其服务器级软件生态仍在建设中但发展速度惊人。Linux、GCC/LLVM编译器、主流编程语言均已提供良好支持。对于Tenstorrent的目标客户——那些构建大型AI数据中心或HPC设施的公司——他们有能力也有动力去适配一个新的、但更具潜力和成本优势的生态。此外使用RISC-V可以避免昂贵的架构授权费。Arm的Neoverse系列服务器核心授权费用不菲这对于初创公司而言是一笔巨大的固定成本。将这部分资金投入到自研核心的研发和优化上从长期看可能带来更高的性能壁垒和差异化优势。3. 技术架构深潜从“宽度”到“小芯片”的全面进击理解了“为什么是RISC-V”我们再来拆解Tenstorrent具体“怎么做”。其技术架构可以概括为两个核心支柱一是可伸缩的、超宽乱序RISC-V CPU微架构二是高度可编程、持续演进的Tensix AI加速核心。两者通过先进的封装和互联技术组合成灵活的产品形态。3.1 一个微架构五种CPU IP灵活性的极致这是Tenstorrent设计中非常精妙的一点。通常一家公司会为手机、笔记本、服务器等不同场景设计完全不同的CPU核心。但Tenstorrent的CPU团队在Wei-Han Lien的带领下开发了一套统一的、高性能的乱序执行RISC-V微架构。然后他们通过调整关键参数将其“实例化”为五种不同规格的CPU IP核CPU IP 名称解码宽度目标应用场景核心特点小核 (未命名)2宽极低功耗控制、IoT面积小功耗极低用于管理、调度等轻量任务中核A3宽嵌入式、边缘计算平衡性能与能效中核B4宽高性能边缘、客户端PC类似主流笔记本CPU的单核性能Alastor6宽高性能计算、高端客户端高吞吐量用于数据密集型应用Ascalon8宽数据中心、HPC旗舰核心极致单线程与多线程性能这个“解码宽度”是什么意思它指的是CPU每个时钟周期能够从指令缓存中取出并解码的指令条数。宽度越大理论上每个周期能投入执行的指令就越多性能潜力越高。目前AMD的Zen 4架构是4宽解码英特尔Golden Cove是6宽解码。而Tenstorrent的Ascalon核心直接做到了8宽解码这需要极其复杂的分支预测、指令调度和寄存器重命名机制来支撑设计难度呈指数级上升。Wei-Han Lien在苹果主导的“Firestorm”核心用于A14/M1正是8宽设计其能效比至今令人称道。他将这套设计哲学带到了RISC-V世界旨在打造一个在绝对性能上不输于当代顶级x86/Arm服务器核心的RISC-V核心。每个Ascalon核心内部集成了6个整数ALU算术逻辑单元、2个浮点单元和2个256位宽的向量单元构成了一个强大的执行引擎。实操心得设计超宽乱序核心最大的挑战在于“喂饱”它。如果指令缓存、分支预测器、数据预取器的性能跟不上解码器再宽也会闲置形成性能瓶颈。因此这类设计必须伴随巨大的、智能化的片上缓存L1/L2和极高的内存带宽。这也解释了为什么Tenstorrent的服务器芯片方案如此强调高速互连和大容量内存。3.2 Tensix核心不止是AI加速器如果说CPU是“大脑”负责逻辑和调度那么Tensix核心就是专为“体力活”——大规模并行矩阵计算——而生的“肌肉群”。但Tensix并非一个固定的、黑盒化的硬件单元而是一个高度可编程的、持续演进的计算集群。一个Tensix核心的内部结构可以看作一个微型计算机5个精简RISC-V控制核心负责管理张量运算的流程、地址生成和同步。张量数学阵列这是计算主力以极高的能效执行INT8、FP16、BF16、FP32等格式的矩阵乘加运算。SIMD向量单元处理非矩阵形式的向量化计算。大型片上SRAM1-2MB作为高速缓存存储频繁使用的数据和权重减少访问外部慢速内存的延迟。专用硬件加速器用于网络数据包处理、数据压缩/解压缩等常见数据中心任务。这种架构使得Tensix非常灵活。开发者可以通过编程让这些核心协同工作来处理复杂的AI模型层而不仅仅是执行单一的矩阵乘法。其支持的数据类型从用于极致推理能效的BF4、INT8到用于高精度训练的BF16、FP64覆盖了从云端训练到边缘推理的全场景。3.3 Chiplet与小芯片战略通往3nm的阶梯Tenstorrent的产品路线图清晰地展示了其采用“小芯片”Chiplet技术的演进路径。这是一种将大型单片芯片SoC拆分成多个更小、功能模块化的芯片并通过先进封装技术互联的设计方法。初期产品Grayskull/Wormhole可以理解为“纯AI加速卡”本身没有强大的通用CPU需要插在x86服务器上作为协处理器使用。Black Hole2023年这是第一个“CPUAI”集成芯片。它采用了Chiplet设计将24个来自SiFive的X280 RISC-V CPU核心作为通用计算单元与多个第三代Tensix核心作为AI加速单元集成在一起。它使用台积电6nm工艺通过高达2TB/s的芯片间互连带宽将不同的小芯片连接起来。Black Hole标志着Tenstorrent具备了提供独立AI解决方案的能力。Grendel2024年及以后这是终极形态。它包含两种核心小芯片Aegis CPU Chiplet集成128个自研的、8宽解码的Ascalon RISC-V核心采用台积电3nm工艺制造。这将是业界首批采用3nm工艺的高性能服务器CPU之一极具前瞻性。AI加速Chiplet集成更多、更先进的Tensix核心同样可采用3nm工艺以实现更高密度和能效。这些小芯片通过超高速的互连总线如UCIe标准组合在一起客户可以根据需要灵活配置CPU算力和AI算力的比例。这种模块化设计降低了超大尺寸单片芯片的制造难度和成本良率更高也使得技术迭代更灵活——可以单独升级CPU或AI芯片部分。4. 商业模式创新既是IP商也是产品商还是系统商Tenstorrent的野心不仅体现在技术上也体现在其独特的商业模式上。它不像传统的芯片公司只专注于某一环而是试图覆盖从IP到系统的全价值链。商业模式层级提供的产品/服务目标客户竞争优势IP授权将2宽到8宽的RISC-V CPU IP以RTL硬件描述语言、硬核布局布线后的设计甚至GDS掩膜版图形式授权。其他芯片设计公司提供高性能、可定制的RISC-V核心避免客户自研的高风险和高成本。芯片/小芯片销售销售Black Hole、Grendel等完整的芯片或Aegis、Tensix等独立小芯片。服务器OEM厂商、大型互联网公司提供即插即用的高性能AI计算模块客户可集成到自研系统中。加速卡销售销售基于自家芯片的PCIe加速卡如Grayskull卡。企业用户、云服务商提供标准化的AI算力扩展方案类似NVIDIA的GPU卡。整机系统销售销售预集成好的4U服务器如Nebula内部包含多个加速卡和自研CPU。需要端到端AI解决方案的客户提供开箱即用的全栈软硬件优化系统简化部署和维护。这种“四管齐下”的模式看似矛盾它既向潜在竞争对手其他芯片公司授权IP又向系统集成商服务器厂商销售芯片同时还自己卖整机与所有客户都存在一定程度的竞争关系。然而这在半导体行业并非没有先例。NVIDIA既卖GPU芯片也卖DGX整机系统AMD既卖CPU/GPU芯片也授权其芯片组技术。关键在于找到差异化的价值点。Tenstorrent的核心赌注在于其基于RISC-V的异构计算架构具有独特的性能和能效优势使得无论是哪一层的客户都能从中获得超越现有方案的价值。对于只想买IP的客户他们获得了顶尖的RISC-V核心对于想买芯片的客户他们获得了高度集成的AI解决方案对于想买整机的客户他们获得了深度优化的软硬件一体机。5. 挑战与前景在巨头的阴影下开辟新路尽管蓝图宏伟技术顶尖但Tenstorrent面前的道路绝非坦途。它正闯入一个由资金雄厚、生态稳固的巨头把守的战场。首要挑战是软件生态。NVIDIA的CUDA护城河深不可测几乎所有AI框架和模型都优先适配。Tenstorrent需要构建一个同样易用、高效的软件栈包括编译器、驱动程序、运行时库以及模型转换和优化工具。这需要巨大的工程投入和开发者社区建设非一朝一夕之功。他们的策略可能是聚焦于少数关键模型和框架做到极致优化以点带面。其次是制造与供应链。其路线图中涉及的3nm工艺是台积电最先进、最昂贵也最紧俏的产能。作为一家初创公司如何确保产能、控制成本将是巨大的考验。Chiplet设计虽然降低了单个大芯片的制造难度但增加了封装测试的复杂性和成本。最后是市场接受度。数据中心客户普遍保守对新架构、新生态的采纳非常谨慎。Tenstorrent需要找到愿意“第一个吃螃蟹”的标杆客户用实实在在的性能、能效和总拥有成本TCO优势来说服市场。不过机遇同样巨大。AI计算的需求仍在爆炸式增长且呈现出越来越多样化的趋势单一架构很难通吃。RISC-V的开放生态正在快速成熟得到了全球从学术界到产业界的广泛支持。Jim Keller及其团队过往无与伦比的成功记录也为公司带来了顶级的关注度和人才吸引力。我个人看来Tenstorrent更像是一个“架构探险家”。它可能不会在短期内撼动NVIDIA或英特尔的统治地位但它所探索的“超宽RISC-V CPU 可编程AI加速单元 Chiplet”技术路径很可能为行业指明一个重要的方向。即使其商业成功有待验证其在技术上的创新与突破也必将推动整个高性能计算和AI芯片领域向前发展。这场由硅仙人领衔的冒险值得我们持续关注。

相关新闻