中电网移动|移动中电网|高清图滚动区

亚马逊携手Cerebras,整合Trainium芯片与CS-3系统

近日,晶圆级人工智能(AI)芯片厂商Cerebras Systems宣布,亚马逊云服务 (AWS) 将在其数据中心部署 Cerebras CS-3 系统。这项新服务将通过 AWS Bedrock 提供,支持领先的开源逻辑层模型 (LLM) 和亚马逊的 Nova 模型,并以业界最高的推理速度运行。此外,AWS 和 Cerebras 正在合作开发一种全新的解耦架构,将 AWS Trainium 与 Cerebras WSE 相结合,在相同的硬件空间内提供 5 倍的高速Token容量。

AI正在重塑软件开发。越来越多的代码由人工智能代理而非人类开发者编写。与对话式聊天不同,人工智能代理(AI Agent)的编码每次查询产生的Token数量大约是人类的 15 倍,并且需要高速的Token输出才能保持开发者的效率。因此,整个行业对更快速的推理能力的需求日益迫切。

Cerebras 是高速 AI 推理领域的市场领导者,可为 OpenAI、Cognition 和 Meta 等模型提供高达每秒 3,000 个Token的处理能力。此次,AWS 和 Cerebras的合作,希望将这种速度带给 AWS 的全球客户群。通过双方在解耦推理方面的独特合作,将能够提供 5 倍的高速推理容量。

具体来说,每次向AI提出问题时,都会发生两种截然不同的计算:预填充和解码。预填充处理问题,而解码生成答案。预填充是计算密集型操作,所需的内存带宽相对较低。而解码则需要为生成的每个标记从内存中获取整个模型,因此对带宽要求极高。目前,AI加速器在同一芯片上运行这两个阶段。虽然这种方式简单灵活,但也意味着可以通过为每个阶段使用专用硬件来提升性能。

Trainium 是亚马逊专为AI打造的芯片,旨在为各种生成式人工智能工作负载提供可扩展的性能和成本效益。其高密度计算核心尤其适用于预填充阶段。基于Cerebras WSE-3芯片的 CS-3超级计算机是世界上速度最快的AI推理系统。它将所有模型权重存储在芯片上的 SRAM 中,其内存带宽比最快的 GPU 高出数千倍,使其成为速度最快的解码处理器。

通过双方之间的合作,AWS 和 Cerebras 正在构建一种解耦式配置,将充分利用两家公司的优势。在解耦模式下,Trainium 专注于预填充工作。它计算键值缓存,并通过亚马逊的高速 EFA 互连将其发送到 WSE。Cerebras WSE 接收结果并专门执行解码操作,每秒生成数千个输出Token,而 GPU 每秒只能生成数百个。这种架构充分利用了每个处理器的优势,使 AWS 客户的高速Token处理能力提升了 5 倍。

“推理是AI真正为客户创造价值的领域,但速度仍然是实时编码辅助和交互式应用程序等高要求工作负载的关键瓶颈,” AWS 计算与机器学习服务副总裁 David Brown 表示。 “我们利用 Cerebras 构建的解决方案正是为了解决这个问题:通过将推理工作负载分配到 Trainium 和 CS-3 上,并使用亚马逊的 Elastic Fabric Adapter 将它们连接起来,每个系统都能发挥其最佳性能。最终实现的推理速度将比现有方案快一个数量级,性能也将更高。”

AWS 和 Cerebras 将同时支持聚合和解耦配置。如果您拥有规模庞大且稳定的工作负载,解耦配置是理想之选。大多数客户运行着预填充/解码比例各异的混合工作负载,在这种情况下,传统的聚合方法仍然是最佳选择。Cerebras预计大多数客户都希望能够同时访问这两种配置,并能够将工作负载路由到最适合他们的配置。

Cerebras 表示,非常高兴能与 AWS 团队开展这项独特的合作。解耦推理是一项涉及人工智能硬件、模型和基础设施的深度技术挑战。AWS 在定制芯片、网络和分布式计算方面拥有世界一流的专业知识。Cerebras 则在晶圆级系统架构、模型专业知识和推理服务方面拥有十年的创新经验。双方将两支卓越且优势互补的工程团队强强联合,在排名第一的云平台上,以前所未有的规模构建全球速度最快的 AI 推理系统。

猜你喜欢
中电网移动|移动中电网|频道导航区