作者: 付斌
在全球科技产业向 AI 时代全速进发的浪潮中,一个关键命题日益凸显:当行业沉迷于 GPU 算力竞赛时,如何构建更可持续、更高效的 AI 计算基础设施?答案其实就在 AI 推理过程中作为核心控制单元的 CPU 中。
事实上,当前任何 AI 都要基于 CPU 建立自己的算力生态。同时,许多推理工作也需要在 CPU 上运行。作为领先的计算平台公司,Arm 将如何助力应对日益复杂的工作负载与推理需求?又是如何看待未来 AI 的发展趋势?为此,EEWorld 与 Arm 基础设施事业部产品解决方案副总裁 Dermot O'Driscoll 进行了一场深度对话。
AI 时代,CPU 仍然扮演着核心角色
在大语言模型推理领域,行业长期存在'GPU 万能论'的认知偏差。而在实际应用中,CPU 在 AI 工作负载中扮演着远比想象中更为核心的角色。
Dermot 解析道,在大语言模型 (LLM) 推理中,CPU 与 GPU 相互补充,共同实现最佳的性能与成本效益。本质上来讲,GPU 是在扮演加速器的角色,无法离开 CPU 独立工作,需要与 CPU 紧密耦合。更重要的是,CPU 不仅是 AI 推理过程中的核心控制单元,还能与 GPU、NPU、FPGA 和 ASIC 等异构单元协同工作,以管理和调度系统资源。事实上,新型加速器的不断涌现也带来了更多定制计算需求,一个很好的例子就是 NVIDIA 的 Grace (CPU) 与 Hopper (GPU) 的组合。具体而言,CPU 在推理领域所具备的独特优势包括:
第一,通用性与灵活性:长期以来,CPU 被广泛应用于传统的 AI 和机器学习任务,凭借其高度的通用性和灵活性,在 AI 推理部署方面具备显著优势。对于希望在产品或服务中集成 LLM 的企业和开发者而言,CPU 通常是首选。
第二,成本与能效优势:相比完全依赖 GPU 所带来的高成本与高功耗,CPU 在推理任务中展现出更优的能效比。其设计适用于处理多任务负载,并且无需额外的复杂冷却和电力配置,从而降低整体运营成本。尤其在资源受限的环境中,CPU 的低功耗特性更加突出,这使其成为需要长期稳定运行AI 应用的可持续、经济高效的解决方案。
作为高效处理 AI 工作负载的异构计算架构中的核心组件,Arm CPU 可以与 GPU 和 NPU 等 AI 加速器无缝融合与协同,成为应对各类 AI 推理任务的不二之选。
从通用向专用转变的 AI 计算
随着 AI 应用日益聚焦于细分场景,其算力需求不仅呈指数级增长,而且变得更加多元化,这推动了 AI 计算从通用计算向专用计算的转变,同时需要更多定制化的解决方案。如今,FPGA 和 ASIC 等专用芯片的兴起正是这一趋势的有力体现。
在 Arm 看来,整个行业将继续推进专用芯片的发展,从而加速定制化解决方案的落地与实施。随着 AI 的兴起,功耗问题成为了关注的焦点,行业强调数据中心不能再依赖现成的计算解决方案来构建,而需根据特定的数据中心和工作负载来设计和构建计算系统。早在 AI 时代全面到来之前,Arm Neoverse CPU 的高能效特点就已经在基础设施领域得到了广泛认可,并在 AI 推理方面展现出了独特的优势。如今,Arm Neoverse 平台已经成为云数据中心领域的事实标准。预计2025 年,出货到头部超大规模云服务提供商的算力中,接近 50% 将基于 Arm架构。
Dermot 表示,目前在领先的超大型云服务提供商中,包括亚马逊云科技 (AWS)、Google Cloud 和 Microsoft Azure,都已基于 Arm 技术构建定制化数据中心。预计在 2025 年,这一趋势将会延续,通过在 ASIC 服务以及芯粒技术等领域的大量投资,领先的科技企业将能够更快地设计和部署定制芯片。
以 Arm 与 AWS 的合作为例:在 2024 AWS re:Invent大会上,基于 Arm Neoverse V2 的 Graviton4 处理器亮相,相较前代实现 30% 性能提升、50% 核心增加和 75% 内存带宽提升。凭借这些技术优势,AWS Graviton 处理器在生态系统中得到了广泛应用。
Arm 与 AWS 共同致力于开发专用芯片和计算技术,以实现更强劲、更高效且可持续的云计算能力。AWS Graviton4 是 AWS 五年来推出的第四代基于 Arm 架构的 Graviton 处理器,也是 AWS 迄今为止性能最强大、能效最高的芯片。
Arm Neoverse 不仅为 AWS Graviton 提供了定制芯片的灵活性,更使计算能力得到深度优化,可从容应对最严苛的工作负载需求。以 Arm Neoverse V2 平台为例,其搭载的 Armv9 架构为其带来了多项关键功能,包括高性能浮点和向量指令支持,例如可伸缩向量扩展(SVE/SVE2)、Bfloat16 和 INT8 MatMul 等,为 AI/ML 以及高性能计算 (HPC) 工作负载提供了强劲性能。
为 AI 落地构建算力与能效基座
AI技术在实际应用中的落地是其发展面临的最为关键的问题,而事实上不同行业对于 AI 的需求差异很大,这也使业界素有“所有行业都值得被 AI 重塑一遍”的说法。
针对不同行业与应用场景,Arm 秉持系统级的全局思维,实现硬件、软件与生态资源的无缝融合,打造兼具卓越可扩展性、性能和能效的综合平台,帮助产品更快上市。Dermot 以基础设施和汽车领域为例做了深入介绍:
在基础设施领域,随着生成式 AI 和大语言模型的普及,数据中心需平衡高效算力、能效和快速部署,Arm 为此推出了一整套针对性的解决方案。
硬件层面,Arm 推出了 Arm Neoverse CSS 计算平台,这是一个预先配置、集成并验证的系统,专为满足数据中心高度定制化的基础设施需求而设计。该平台可提供高效可扩展的计算基础,在提升性能和能效的同时,大幅简化了 SoC 设计。这使 Arm 的合作伙伴能够以更快速度、更低成本开发满足其特定需求的定制芯片,精准应对数据中心场景的独特挑战。
软件层面,Arm 在去年将 Arm Kleidi 技术集成到 PyTorch,将关键的 AI 软件性能拓展至云端,赋能新一代应用在 Arm CPU 上运行 LLM。Kleidi 汇集了最新的开发者赋能技术和关键资源,旨在推动机器学习 (ML) 技术栈中的技术协作和创新。通过这些重要进展,Arm 致力于为 ML 技术栈的开发者提供更为顺畅的体验。当前,Arm 正与领先的云服务提供商和 AI 框架设计者紧密合作,以打造便捷的开发环境,让软件开发者能够轻松地在基于 Arm 架构的硬件上加速 AI 和 ML 工作负载。
此外,Arm 推出的 Arm 全面设计 (Arm Total Design, ATD) 生态项目,致力于无缝交付基于 Arm 平台的定制计算解决方案。借助 Arm 全面设计,合作伙伴可以优先采用 Arm Neoverse CSS、预集成的 IP 和电子设计自动化 (EDA) 工具、设计服务、代工厂支持以及商用软件和固件支持。通过与该生态系统协作,合作伙伴能够充分利用行业的专业知识和资源,加速定制芯片解决方案的上市。目前,已有超过 30 家合作伙伴参与到该生态项目中。
在汽车领域,Arm 不断革新硬件,并讲求生态协同,持续满足市场对于高汽车算力和性能水平的需求。
硬件层面,Arm AE (汽车增强) IP 已成为汽车电子的核心。为满足高算力需求,Arm 将服务器级Neoverse CPU 引入 AE 产品线,推出专为高端 ADAS 和自动驾驶用例设计的Neoverse V3AE,首次将 Armv9 架构带入汽车领域,提供 AI、安全和虚拟化支持。今年,Arm 还将推出汽车 CSS,为合作伙伴生态系统提供预集成和经过验证的 AE IP 配置,进一步优化性能、功耗和芯片面积。
软件层面,虚拟原型技术日益普及,正加速推动芯片和软件开发。借助虚拟原型技术,Arm 的汽车行业合作伙伴能够在物理芯片准备就绪之前就能同步启动软件的开发和测试。2024 年,Arm 在生态系统的助力下推出了虚拟原型平台,帮助合作伙伴将开发周期缩短多达两年。不仅如此,继数据中心、移动端和物联网之后,Arm 近期将 Kleidi 软件库引入汽车市场,以加速提升汽车领域的 AI 应用性能。目前,包括AWS、VicOne和Sonatus 在内的领先的科技公司已经在他们的汽车软件中体验到了一系列新应用的性能提升。Kleidi 库与关键的开发者框架的集成正在加速 AI 应用的开发,为用户提供更快、更高效的车载体验。
生态层面,Arm牵头成立的 SOAFEE (面向嵌入式边缘的可扩展开放架构) 已成为推动汽车产业协同的重要力量,其成员涵盖了汽车供应链的超过 140 家公司,共同推动软件定义汽车 (SDV) 的发展。SOAFEE 通过行业协作,各方携手共享专业知识、技术和产品,共同定义由AI赋能的 SDV 的未来,并充分释放其对终端用户的真正潜力。
AI 未来的四大趋势
这两年AI 的发展非常迅猛。展望未来,AI 会有哪些变化?对此 Dermot 分享了四点关键趋势:
趋势1: 重新思考芯片设计:芯粒将成为解决方案的新方向
传统芯片制造面临成本和技术瓶颈,芯粒 (Chiplet) 技术通过先进封装整合不同制程的模块,突破摩尔定律限制。该技术已开始解决特定市场需求,预计在未来几年持续发展。
趋势2: 更全面考量芯片设计指标:从性能优先到效率导向
在芯片设计过程中,不再仅仅将性能作为关键指标,而是将每瓦性能、单位面积性能、单位功耗性能和总体拥有成本作为核心指标。此外,行业还应引入一些新的指标,关注系统实现方面的挑战,确保将 IP 集成到系统级芯片(SoC)及整个系统后性能不受影响。
趋势3: 标准化的重要性与日俱增: 产业需要更多的无缝协作
芯粒技术催生了对接口标准化的迫切需求。近年来,Arm 一直与众多技术合作伙伴携手推动芯粒系统架构 (CSA) 和 AMBA CHI C2C 等关键标准。几个月前,Arm 宣布了 CSA 发展的又一重要里程碑,即 CSA 首个公开规范的发布,在AMBA CHI C2C统一接口协议基础上,进一步推动芯粒技术的标准化,并减少行业的碎片化。目前,已有超过 60 家行业领先企业,如 ADTechnology、Alphawave Semi、AMI、楷登电子、云豹智能、Kalray、Rebellions、西门子和新思科技等,积极参与了 CSA 的相关工作,助力不同领域的芯片战略制定并遵循统一的标准。
趋势4: AI 智能体已在客服、编程等领域取得成效,并将持续拓展应用场景
当前行业演进路径已从单纯的超大规模参数堆叠转向更具革新性的 AI 代理范式,为产业应用开辟了全新维度。传统的 AI 交互主要依赖单一模型来满足用户需求,而 AI 代理则构建了“AI 零工经济”的协同模式,实现众多智能体或 AI 机器人的专业化分工协作。预计未来一年内,AI 智能体将在更多行业取得显著发展,成为推动下一阶段 AI 变革的重要力量,让人们的工作与生活变得更加高效便捷。
总结
随着 AI 的快速演进,行业对高效、灵活的计算能力以及完善的软件生态系统的需求更胜以往,以充分释放计算潜能。正如 Dermot 在采访最后所总结的,30 多年来 Arm 始终致力于推动行业创新。这种长期的坚持与积累,使 Arm 能够为 AI 发展提供高效稳固的算力基座,助力全球开发者与合作伙伴更轻松地实现 AI 创新。