
据路透社报道,两位知情人士透露,人工智能(AI)芯片大厂英伟达正准备推出一款可向中国市场出口和销售的Groq语言处理单元(LPU)版本,预计将于今年5月上市。
在近日的GTC 2026大会上,英伟达高调发布了基于Groq技术的Groq 3语言处理单元(LPU),将其定位为Vera Rubin GPU的“推理协处理器”,引发了市场的极大关注。
与大多数依赖HBM(高带宽内存)作为工作内存层的AI加速器不同,每个Groq 3 LPU芯片集成了500MB的片上SRAM(静态随机存取存储器)。虽然其容量远低于Rubin GPU上的288GB的HBM4,但是其可提供高达150TB/s的带宽,对于带宽极度敏感的AI解码操作,Groq 3 LPU的带宽是传统HBM的近7倍。

英伟达超大规模计算副总裁Ian Buck表示,对于需要极致低延迟的token生成任务,LPU的带宽优势无可替代。”
那么,英伟达最新推出的这款LPU是否能够对华出口呢?
2026年1月,美国为了让英伟达老的AI芯片能够对华出口,放宽了相关出口管制的硬件参数限制,已经修改为:TPP(总处理性能)低于21000(3A090.a和3A090.b中所定义)且“总DRAM带宽”低于6500 GB/s(如第748部分补充2第(dd)(1)段注释中所定义的)的高级计算商品。
美国的AI芯片出口管制的核心红线是算力密度(TPP)和互联带宽。但LPU的架构与AI GPU完全不同:它不擅长高并行浮点运算(训练任务),而是专攻低延迟推理。虽然其片上SRAM带宽极高,但容量极小(单芯片仅500MB),无法独立运行万亿参数级大模型。如果看FP8精度下的理论峰值算力,可能远低于H100/B200等芯片。这意味着,Groq LPU的算力密度可能并不触及现行美国针对AI芯片出口管制的性能阈值。
路透社的报道也指出,英伟达正在为中国市场准备的Groq LPU芯片并非降级版本,也不是专门为中国市场打造的“特供版”。
但是,在英伟达的规划中,Groq LPU是作为Rubin GPU的“协处理器”存在的。黄仁勋给出的配比建议是:约25%部署Groq LPU,其余75%部署Vera Rubin。LPU负责解码阶段的低延迟生成,Rubin GPU负责预填充阶段的海量计算。
这意味着,即使LPU本身可以进入中国,它也无法与Vera Rubin组成完整的混合推理系统——这将显著影响其在中国市场的实用价值。
不过,消息人士称,英伟达计划对华出口的LPU新版本可以适配其他GPU系统——这意味着它可能在接口、互联协议或系统集成层面进行了调整,以适应中国市场的服务器生态。
另一种可能是,英伟达将Groq LPU以板卡或系统的形式出口,通过整体系统的性能参数来满足管制要求。消息人士称“新版本可以适配其他系统”,也暗示了其可能在系统集成层面进行了调整。
虽然目前英伟达在AI训练芯片市场依然占据着主导地位,但是由于美国出口管制政策的限制,使得其在中国AI芯片市场的份额已持续降低至冰点。同时,在中国的AI推理芯片市场,英伟达更是面临着寒武纪、HW、阿里平头哥、百度昆仑芯等众多本土厂商的激烈竞争。如果英伟达无法将Groq LPU带入中国,可能将这部分市场份额拱手让人。这种商业压力也促使英伟达寻找合适的产品及合规的出口路径,重新回到中国AI芯片市场。