AI性能暴增35倍！英伟达发布全新LPU，GPU不再是唯一主角！

2026-03-17 15:05:30 互联网

当地时间3月16日，英伟达GTC 2026正式美国加州圣何塞召开。英伟达创始人兼首席执行官黄仁勋身披标志性皮衣登场，在长达两个半小时的主题演讲中，勾勒出这家算力巨头从“芯片公司”向“AI基础设施工厂”全面蜕变的宏伟蓝图。

针对近期爆火的开源AI代理工具OpenClaw（俗称“龙虾”），黄仁勋将其OpenClaw定义为“代理型电脑的操作系统”，其在几周内的表现就超越了开源作业系统Linux过去30年的成就。黄仁勋说，在OpenClaw出现后，每一家信息科技公司和“软件即服务”公司都将转型为“代理即服务”公司。 OpenClaw在正确时间给了产业正确的需求，就像Linux作业系统和HTML网页语法在正确的时间出现一样。

然而企业网络中的代理型系统若能存取敏感细腻系、执行程式码、与外部通讯，恐让企业有所顾虑。英伟达与OpenClaw的开发者斯坦伯格（Peter Steinberger）合作，推出开源AI代理平台NemoClaw，具备企业级的安全与隐私能力。NemoClaw平台与NVIDIA NeMo框架、Nemotron模型系列和NVIDIA推论微服务NIM进行深度整合，确保企业能利用最先进的加速技术，实现高效的AI智慧代理推论与训练，同时完全掌控其数据和部署配置。

与此同时，黄仁勋还透露，英伟达正与合作伙伴开发一款名为Vera Rubin Space-1的新电脑，它将前往太空并开启太空数据中心的时代。英伟达其实早已经在太空留下了足迹，旗下Thor晶片已通过辐射认证，并已安装在卫星中，黄仁勋在演讲现场展示的卫星影像就是由Thor芯片处理。但他也坦言，太空数据中心是一项极其复杂的工程，在太空环境中没有热传导或热对流，只有热辐射，必须想出如何在太空中冷却系统，“我们有许多优秀的工程师正在致力于此”。

针对实体AI进展，黄仁勋说，自动驾驶汽车已经迎来ChatGPT时刻，辉达自驾车平台新增比亚迪、现代、日产和吉利等合作车厂，英伟达也与打车平台Uber携手推出无人出租车服务。

在演讲尾声，黄仁勋还展示了与迪士尼合作的「雪宝」机器人，强调其“大脑”是由英伟达Jetson运算平台提供动力，通过物理模拟学会走路，“迪士尼乐园的未来，将是所有这些机器人与角色在四周游走。”

面对市场对业绩持续性的高度关注，黄仁勋给出了极为强劲的预期：到2027年，英伟达新一代AI芯片的累计营收将正式跨入1万亿美元时代。这一数字是他去年预测的两倍。

回到本次演讲重头戏，当属备受期待的Vera Rubin AI工厂平台。与以往发布单芯片不同，黄仁勋此次展示的是一个包含7款全新芯片的“全家桶”系统。他强调：“过去提到Hopper，我会举起一块芯片，那很可爱。但提到Vera Rubin，大家想到的是整个系统。”

这一系统级平台的核心组件包括：

Vera CPU：全球首款专为“AI智能体时代”与“强化学习”设计的处理器。它搭载88个自研“Olympus”核心，性能较传统CPU快50%，能效提升达2倍。黄仁勋将其比作智能体系统背后的“指挥与调度中心”，负责管理海量并发任务。

Rubin GPU：与Vera CPU通过NVLink-C2C技术实现1.8TB/s的惊人互联带宽，共同构成强大的算力核心。

NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU以及带同包光学器件的Spectrum-X可扩展交换机：构成了一套完整的超高速互联、网络与数据处理基础，确保数据在AI工厂内高效流转。黄仁勋透露，目前正全速生产Spectrum-X以太网络交换机，这也是全球首款采用CPO技术的交换器，把光学零件直接安装在芯片上，将电子转化为光子，这项技术由英伟达与台积电共同研发。

黄仁勋展示了基于这些组件构建的Vera Rubin NVL72机架，它集成了72颗Rubin GPU和36颗Vera CPU。相比上代Blackwell平台，训练大型混合专家模型所需GPU数量仅为其四分之一，推理吞吐量/瓦特提升高达10倍。他骄傲地宣称，通过极致的软硬件协同设计，在短短两年内，英伟达将1GW数据中心内的Token生成速率提升了350倍。

黄仁勋表示，Vera Rubin平台已实现100%液冷，没有任何线缆，以前需要2天才能完成的安装，现在只需要2小时，制造周期将大幅缩短。这台超级电脑使用45度的热水进行冷却，减轻了数据中心的压力。黄仁勋在PPT中还展示了Vera中央处理器（CPU）机架系统合作伙伴，中国台湾厂商包含永擎、华硕、仁宝、鸿海、技嘉、英业达、神达、微星、和硕、广达旗下云达、纬创和纬颖入列。

对于下一代的Feynman架构芯片，预计2028年推出，将采用全新GPU内核、新的语言处理单元（LPU）、名为Rosa的新CPU及Bluefield 5网络平台，将同时支持铜缆与共同光学封装（CPO）技术。

特别值得重点介绍的是，黄仁勋展示Vera Rubin平台的“全家桶”时，还推出了一款看似小巧却极具战略意义的芯片——Groq 3语言处理单元（LPU）。这款源自英伟达去年12月以约200亿美元收购Groq核心技术资产的芯片，被黄仁勋定位为Rubin GPU的“推理协处理器”，成为了Vera Rubin平台的又一基石。

黄仁勋解释了引入LPU的战略考量时指出：在AI智能体时代，推理需求正加速分化。面对需要极高交互性、超短响应时间的任务，传统GPU架构存在性能冗余。为此，英伟达引入了专注于“极致低延迟Token生成”的LPU架构。

本文将深入解析Groq 3 LPU的技术细节、混合推理架构以及它对AI推理市场的深远影响。

一、技术颠覆：打造150TB/s的SRAM怪兽

Groq 3 LPU最引人注目的特点，在于其彻底颠覆了传统AI加速器的内存架构。

1、500MB片上SRAM：带宽的极致追求

与大多数依赖HBM（高带宽内存）作为工作内存层的AI加速器不同，每个Groq 3 LPU芯片集成了500MB的片上SRAM（静态随机存取存储器）。这种内存此前主要用于CPU和GPU的超高速缓存，从未在AI加速器中担当主角。

这500MB SRAM看似“微不足道”——与每个Rubin GPU上容量高达288GB的HBM4相比，仅为其1/500。但SRAM的关键优势在于带宽：这块SRAM可提供高达150TB/s的带宽，而HBM4的带宽仅为22TB/s。这意味着，对于带宽极度敏感的AI解码操作，Groq 3 LPU的带宽是传统HBM的近7倍。

英伟达超大规模计算副总裁Ian Buck对此解释道：“让我们对比一下这两种处理器：GPU拥有288GB内存，但带宽是22TB/s；LPU只有1/500的容量，但带宽达到了惊人的150TB/s。对于需要极致低延迟的token生成任务，LPU的带宽优势无可替代。”

基于此芯片的Groq 3 LPX机架配备256颗LPU，提供128GB片上SRAM和640TB/s总带宽。

黄仁勋描绘了GPU与LPU协同工作的未来图景：Vera Rubin负责需要海量计算的“预填充”阶段，而Groq LPU则负责对延迟极度敏感的“解码”阶段。在这种混合架构下，系统的推理吞吐量与功耗比最高可提升35倍。他建议企业客户，若工作负载包含大量高价值的Token生成需求，应将25%的数据中心规模配置给Groq。据悉，由三星代工的Groq LP30芯片已进入量产，预计今年第三季度出货。

2、三星代工：黄仁勋现场致谢

在GTC主题演讲中，黄仁勋特别提到三星电子，感谢其为英伟达加快生产Groq 3 LPU芯片（具体型号为Groq LP30）。这是英伟达首次公开确认三星晶圆代工部门参与下一代AI芯片生产。

“三星为英伟达生产Groq 3 LPU芯片，并正在加快生产速度，我非常感谢三星。”黄仁勋在演讲中表示。他进一步透露，该芯片将于2026年第三季度正式出货。

这一合作标志着三星与英伟达的伙伴关系从存储领域（HBM）正式扩展到晶圆代工领域。三星电子当天在GTC大会现场展出了第七代HBM产品“HBM4E”和垂直堆叠芯片“核心裸片”，积极宣传其在存储和代工领域的双重合作。

3、技术代价：容量与成本的博弈

SRAM的优势背后是残酷的工程权衡。SRAM的生产成本远高于DRAM，且占用更大的芯片面积。这导致单个Groq 3 LPU仅能提供500MB内存，远不足以独立运行万亿参数级别的超大AI模型。

英伟达的解决方案是：用数量弥补容量。公司将256颗Groq 3 LPU集成到一个Groq 3 LPX机架中，提供128GB的片上SRAM和40 PB/s的推理加速带宽。该机架采用液冷设计，通过每个机架640TB/s的专用扩展接口将芯片互联。

Ian Buck坦承这种设计的局限性：“你需要很多芯片才能获得那种性能。从每芯片的token吞吐量（经济性）来看，LPU其实相当低。”

二、混合架构：GPU+LPU如何协同工作？

既然LPU有容量短板，英伟达为何要大费周章将其纳入Rubin平台？答案在于推理任务的分工协作。

1、预填充阶段 vs. 解码阶段

大语言模型的推理过程可分为两个阶段：

预填充阶段：处理输入提示（prompt），并行计算所有输入token，生成中间状态。这一阶段需要强大的浮点运算能力和大容量内存来存储键值缓存。

解码阶段：逐个生成输出token，每一步都依赖于之前生成的token。这一阶段对延迟极度敏感，且受内存带宽限制严重。

英伟达的策略是：让Rubin GPU负责预填充阶段，让Groq LPU负责解码阶段。

具体来说，在英伟达新引入的Dynamo软件框架协调下：

Rubin GPU利用其288GB HBM4和强大的浮点运算能力，处理复杂的注意力机制（Attention）计算和数学运算，存储大型键值缓存

Groq LPU利用其150TB/s的超高带宽，处理前馈神经网络（FFN）层计算，实现极低延迟的逐token生成

2、智能体间通信：从100 token/s到1500 token/s

随着AI从单一大模型走向多智能体系统（multi-agent systems），推理延迟的要求发生了根本性变化。

Ian Buck描绘了这样的未来场景：在多智能体系统中，AI代理越来越多地与其他AI进行交互，而非与查看聊天窗口的人类交流。对人类而言看似合理的每秒100 token生成速率，对AI代理来说却如同蜗牛爬行。

Buck表示：“Rubin GPU和Groq LPU的组合将人工智能代理间通信的吞吐量从每秒100个token提升到每秒1500个token甚至更高。”

3、35倍性能提升：数据背后的工程奇迹

根据英伟达官方基准测试，当运行达到1万亿参数规模的大语言模型时，Rubin GPU与Groq LPU组合相比上代方案，推理吞吐量每瓦特提升高达35倍。

具体到成本层面，英伟达强调，这一组合方案运行超大AI模型时，每百万token的成本为45美元，每秒token处理量达到500。英伟达声称，这将使超大AI模型服务的创收机会增加10倍。

三、战略意义：英伟达为何需要LPU？

1、填补推理市场的短板

分析认为，“通过结合Rubin GPU和Groq LPX，英伟达终于进入了推理市场——一个它从未成为第一的市场。”

长期以来，英伟达的GPU在训练市场占据绝对主导，但在低延迟推理领域，面临着Cerebras、Groq（收购前）等挑战者的竞争。Cerebras的晶圆级引擎同样集成了大量SRAM，为先进模型提供低延迟推理，甚至吸引了OpenAI等大客户。

收购Groq技术并将其整合到Rubin平台，是英伟达对竞争者的直接回应。正如Ian Buck所说，公司希望“通过这两种处理器的结合，走向多智能体未来”。

2、生态系统兼容：无需修改CUDA

对于现有英伟达客户而言，引入Groq LPU的一个重要优势是软件兼容性。

Groq 3 LPX机架与Rubin平台的结合“无需修改现有的NVIDIA CUDA软件生态系统”。这意味着，企业客户可以在不重写代码的前提下，通过增加LPU机架来显著提升推理性能。

3、竞争格局：谁将受益？

Tom's Hardware分析指出，Groq 3 LPU的加入可能降低Rubin CPX推理加速器的作用。Buck暗示，公司目前专注于将Groq 3 LPX机架与Rubin集成，因为两者都旨在提供相似的推理性能增强，而LPU不需要每个Rubin CPX模块所需的大量GDDR7内存。

在客户层面，PCMag预测，最大的AI公司——包括OpenAI、Anthropic、Meta——将成为这项技术的首批采用者。这意味着，未来你的聊天机器人查询或图像生成请求，可能正由Rubin GPU和Groq LPU协同处理。

四、小结：推理时代的新范式

Groq 3 LPU的发布，标志着英伟达对AI计算的理解进入新阶段。当行业还在争论“内存容量vs内存带宽”孰轻孰重时，英伟达给出了一个务实答案：全都要，但分工协作。

Rubin GPU负责需要大容量内存和复杂计算的预填充阶段，Groq LPU负责需要极致低延迟的解码阶段。两者通过NVLink和Spectrum-X高速互联，在Dynamo软件框架的调度下，如同一台计算机般协同工作。

对于企业客户而言，黄仁勋的建议很明确：如果你的工作负载包含大量需要高交互性的token生成任务，应考虑将数据中心的一部分规模配置给Groq LPU。在智能体AI成为行业下一个“拐点”的当下，这种混合架构可能是保持竞争力的关键。

而对于三星而言，拿下Groq 3 LPU的代工订单，标志着其在AI芯片供应链中的地位从“存储供应商”升级为“全面制造伙伴”。正如黄仁勋所言：“谢谢三星。”这句话背后，是AI算力生态日益复杂的分工与合作。