中电网移动|移动中电网|高清图滚动区

英伟达发布新一代AI数据中心与OCP蓝图,将大幅提高效率并降低成本

当地时间10月13日,2025年OCP(Open Compute Project)全球高峰会在美国加州圣荷西正式召开,聚焦AI数据中心的开放架构、永续设计与高效计算。本次OCP峰会聚焦开放协作与标准化,旨在推动更统一、更高效率的全球数据中心架构,让业界能以开放生态的方式应对AI 时代的计算与能源挑战。作为全球AI芯片龙头企业,英伟达此次也加入了OPC董事会。在OPC首日的主题研究当中,英伟达介绍了其AI系统所展现的惊人的性能提升。

现有架构的突破:GB200 成本与性能革命

英伟达指出,仅在两个月内,其就将B200数据中心对开源AI 模型GPTO OSS 的性能提升了5 倍。这一性能上的显著改进,使数据中心提供每百万个token 的成本从11 美分大幅降至仅2 美分。

在实际应用中,这种性能提升直接转化为营收。例如,在Semi Analysis 推理最大基准测试中,搭载NVL72 的GB200 数据中心在处理Deepseek R1 模型时,比同等的H200 系统高出15 倍的性能,这直接影响了数据中心的营收。

另外,所有在OCP 中为推进和改进性能所做的努力,包括提高机架的智慧性、更高的密度、更智慧高效的电力传输以及Scale Up 和Scale Out 互连技术,都在建设能大幅降低成本、提高性能的资料中心。这些资料中心什至会随着时间的前进自行变得更智慧,进一步优化这些指标。

AI 模型的复杂性与情境处理的挑战

辉达指出,随着AI 推理与模型复杂性呈爆炸式成长,所需的AI 核心数量急剧增加。过去处理如Llama 3 这类单一密集模型时,可能需要约10,000 个不同的AI 核心。然而,如今面对HSCR1 和GPTO OSS 等模型,为了提供高性能,则需要约1,000 万个核心。这种复杂性源于模型的规模、大小,以及经常包含数百个专家的混合专家模型。

未来,推理的关键方向之一是「情境」。这指的是模型在提供第一个token 或答案之前必须学习或摄取多少资讯。晖达预见,未来的应用可能需要模型摄取约一百万个token 后,才能给出第一个答案。而这种高价值应用情境涵盖了电影制作、影片、媒体和内容生成。今天的多媒体内容生成市场约为40 亿美元,预计在未来十年内将增长到400 亿美元。例如,在编程领域,AI 代理可能需要理解数百万行代码,才能添加新功能。

2026 年下一代Vera Rubin 架构

为了解决情境处理的挑战,辉达宣布下一代架构Vera Rubin 将于2026 年下半年推出。该架构将部分贡献给OCP 社群,并与现有的GB200 OCP 基础设施和机架兼容。

英伟达介绍了Vera Rubin 架构。首先,在Vera Rubin 架构的关键创新在于采用双晶片设计,其中CPX 处理器部分,专门用于情境处理,它具备丰富的计算能力,但对IO 和记忆体频宽的需求较低。至于,Ruben GPU 部分,则是整合为一个单一的解决方案,使得Vera Rubin 提供超过8 exaflops 的推理性能,比GB200 高出7.5 倍以上,并配备更多的记忆体。在网路方面,将升级至400G Scale Up 网路,跨所有GPU 提供260 TB/秒的频宽,是GB200 的两倍。

另外,Vera Rubin 完全兼容英伟达在GB200 中定义的OCP NGX 基础设施。英伟达正致力于贡献全新的OCP NGX 兼容运算托盘,该托盘将达成100% 水冷。而该系统也将支持与GB200 相同的45 度磁性入口温度,这代表着数据中心可以利用现有的水冷基础设施,无需使用更多的冷却器,而且利用相同的电缆压力、OCP 机架,并兼容MGX 和OCP 兼容底座系统。

英伟达也展示MGX 机架创新设计用于Vera Rubin 的内容,包括全新500 安培全水冷汇流排,已提高机架和电力传输的能效,减少热量浪费。还采用灵活的100 安培whips 新电源传输、SU 自动传输开关来提高弹性,也就是当一个机架故障时,另一个可以接替。最后是模组化L1 领域,达到更好的可维护性和可配置性。而为达成异构计算的紧密耦合,英伟达还推出NVLink Fusion。这是一种IP 和小晶片技术,允许其他CPU 和加速器参与NVLink 和OCP 设计基础设施。

英伟达宣布多项合作伙伴关系

英伟达强调,将数十万乃至百万级GPU 连接到一起是一项艰巨的任务,这需要以太网标准的支持,这使得英伟达对Spectrum 在AI 数据中心世界的进展和采用感到兴奋。目前,Meta 已宣布向OCP 贡献采用Spectrum XP 和Facebook 开源交换系统(FBOSS)的Miniack 3N 交换机。而微软旗下的Fairwater 数据中心是世界上最大、最快的AI 超级电脑之一,采用开放标准乙太网构建,其数十万GPU 的背板互连是以Spectrum X 和OCP SONiC 操作系统为主。

至于,甲骨文(Oracle)及OpenAI 共同规划的星际之门(Stargate) 数据中心是世界上最大的AI 超级电脑基础设施之一,其第一个数据入口就是采用Spectrum 和OCP 技术构建,达成了95% 的有效频宽和零应用延迟。其他采用英伟达Spectrum XGX 技术的数据中心,在采用OCP 软体和标准下,允许多站点进行连接,跨越不同地理区域,甚至整个大陆进行百万级GPU 规模的训练。

展望2027 年Kyber 与800V DC 基础设施

在2027 年下半年,英伟达将推出Kyber 设计。 Kyber 的目标是将500 个GPU 连接到单一机架中。为达成这种规模和能耗密度,英伟达正与业界合作,推动800V 伏特DC 直流电基础设施,这是Mount Diablo 努力的一部分。许多合作伙伴已经开始规划围绕800V DC 的数据中心。

英伟达进一步指出,这种基础设施是与OCP联盟共同建立的。这是一种能提供惊人AI 能力,并且能在未来数年内持续成长和扩展的数据中心。英伟达已设置MGX 生态系统墙,展示构建世界上最强大AI 系统的各种元件。

猜你喜欢
中电网移动|移动中电网|频道导航区