Amazon Graviton4 为目前 AWS 性能最强、最具能源效益的自研芯片,支持大范围的云端工作负载
Amazon Trainium2 将为 AWS 上的模型训练提供最高运算性能,并提高训练速度、降低成本及能源消耗
AWS 在 2023 re:Invent 全球大会上宣布两个自研芯片家族系列将推出新一代芯片成员,包括 Amazon Graviton4 和 Amazon Trainium2,为需要机器学习(ML)训练和生成式 AI(Generative AI)应用等多样化工作负载的客户提供更高效和更具能源效益的选择。Graviton4 和 Trainium2 是 AWS 在自研芯片上的最新突破,AWS持续提升每一代自研芯片的性价比和能源效益,为客户提供 AMD、Intel 以及 NVIDIA 等最新芯片和 instance 组合之外更多的选择,从而使 Amazon Elastic Compute Cloud(Amazon EC2)可以为客户虚拟运行几乎所有应用程序和工作负载。
• Graviton4 与当前一代 Graviton3 处理器相比,性能提升高达 30%,独立核心数量增加 50% 以上,内存宽带提升 75% 以上,为在 Amazon EC2 上运行的工作负载提供最佳性能和能源效益。
• Trainium2 的训练速度与第一代 Trainium 芯片相比提升多达 4 倍,并能在EC2 UltraClusters 中部署多达 100,000 个芯片,可以在极短的时间训练基础模型(FMs)和大语言模型(LLMs),同时提升多达 2 倍的能源效益。
AWS 运算和网络副总裁 David Brown表示:「芯片是所有客户工作负载的基础,所以 AWS一直将芯片视为其至关重要的创新领域。通过将芯片设计聚焦于客户真正关心的实际工作负载,我们能够为客户提供最先进的云端基础架构。Graviton4 是我们同系列在五年内推出的第四代芯片,是我们至今功能最强大和最具能源效益的芯片,为客户大范围的工作负载提供进一步的支持。随着生成式 AI 引起的广泛关注,Trainium2 可以让客户以更低成本和更高的能源效益,更快地训练机器学习模型。」
Graviton4 为客户大范围的工作负载提供更高性价比和能源效益
如今,AWS 在全球提供多达 150 多个以 Graviton 驱动的Amazon EC2 instances 种类,已经构建超过200万个 Graviton处理器,并拥有超过 50,000 名客户,包括 EC2前 100大客户,正在使用以 Graviton 驱动的 instance 为其应用提供最高的成本效益。Datadog、DirecTV、Discovery、Formula 1 (F1)、NextRoll、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe 以及 Zendesk 等客户正使用基于 Graviton 的instance 运行大范围的工作负载,包括数据库、数据分析、网络服务器、批处理、广告服务、应用服务器以及微服务等。随着客户把更大的内存数据库和分析工作负载迁移到云端上,他们对运算、内存、储存和网络的要求也随之增加。为此,他们需要更高性能和更大的 instance 来运行这些要求严格的工作负载,同时需要减省成本。针对这些工作负载,客户同时希望能使用更节能的计算资源,减少对环境的影响。目前,很多 AWS 的托管服务均支持使用 Graviton,包括 Amazon Aurora、Amazon ElastiCache、Amazon EMR、Amazon MemoryDB、Amazon OpenSearch、Amazon Relational Database Service(Amazon RDS)、Amazon Fargate 以及 Amazon Lambda 等,务求将 Graviton 的成本效益优势带给上述服务的使用者。
Graviton4 处理器比 Graviton3 处理器的性能高 30%,独立核心数量增加 50% 以上,内存带宽提升 75% 以上。Graviton4 还进一步通过高速物理硬件接口的完全加密提升了安全性。Amazon EC2 R8g 内存优化instances将采用最新的 Graviton4,提升客户运行高性能数据库、内存缓存、大数据分析等工作负载的效率。R8g instance 相比当前一代的 R7g instance 提供更大的instance 大小,而虚拟处理器(vCPU)以及内存更提升了3倍。升级令用户可以处理更大量的数据、更大规模的工作负载、更快地获得运行结果,并降低总体拥有成本。以 Graviton4 驱动的 R8g instance 现已提供预览版,并将在未来数月推出正式可用版。欲了解更多有关 Graviton4 支持 R8g instance 的相关信息,请浏览:aws.amazon.com/ec2/instance-types/r8g。
Trainium2 的 EC2 UltraClusters 致力为客户提供云端上性能最高、最具能源效益的 AI 模型训练基础架构
生成式 AI 应用日益普及,而其背后的基础模型和大语言模型则需要海量的数据集进行训练。这些模型通过创造文字、音频、图片、影片、甚至软件代码等大量新的内容,协助客户重构使用者体验。现时最先进的基础模型和大语言模型通常包含数千亿甚至数万亿个参数或变量,需要能够支持可扩展到上万块机器学习芯片以及可靠的高性能运算能力。AWS现已提供由机器学习芯片支持的Amazon EC2 instances 选项,以确保广泛且深入的覆盖范围,包括最新的 NVIDIA GPUs、Trainium 以及 Inferentia2。Databricks、Helixon、Money Forward 以及 Amazon Search 团队等众多客户都在使用 Trainium 训练大规模深度学习模型,并受惠于 Trainium 的高性能、可扩展、可靠以及低成本等多方面优势。但即使已经有当今最快的 accelerated instance,客户仍然希望获得更高的性能和更大的规模来训练这些日益复杂的模型,从而提高训练速度、降低成本,以及减少能源消耗。
Trainium2 芯片专为拥有数万亿个参数或变量,且需要高性能训练的基础模型和大语言模型而构建。Trainium2 与第一代 Trainium 芯片相比,性能提升高达 4 倍,内存容量则提升 3 倍,而能源效率(每瓦性能)提升亦多达 2 倍。Amazon EC2 Trn2 instances 采用最新的 Trainium2,一个单独instance 包含 16 个 Trainium 加速芯片。Trainium2 instances 致力为客户在新一代EC2 UltraClusters 中扩展多达 100,000 个 Trainium2 加速芯片,并与 Amazon Elastic Fabric Adapter(EFA)PB 级网络互联,提供的运算能力高达 65 exaflops,客户可按需要选择超级运算级别的性能。该级别的规模,可让客户在数周内完成训练一个具有 3 千亿参数的大语言模型。通过显著地降低成本和扩展幅度最大的模型训练,Trainium2 instance可以协助客户解锁并加速生成式 AI 的新一轮创新。欲了解更多 Trainium2 的相关信息,请浏览:aws.amazon.com/machine-learning/trainium/。
Anthropic 是一家 AI 安全和研究公司,倡导负责任地部署生成式 AI,致力于创建可靠、可解释和可控的 AI 系统。Anthropic 自 2021 年开始使用 AWS。近期,Anthropic推出了 Claude — 一款专注于提供帮助、无害且诚实的 AI 助手。Anthropic联合创始人Tom Brown表示:「自选用 Amazon Bedrock 以来,Claude已获得AWS客户的广泛采用。Trainium2 将协助我们大规模构建和训练模型,于我们数个主要的工作负载而言,Trainium2 相比第一代 Trainium 芯片的速度提升至少4倍。我们与AWS的合作,将令不同规模的组织有机会同时受惠于 Anthropic安全并先进的 AI 系统,以及AWS 可靠的云端技术,从而释放新的可能性。」
Databricks 为全球超过 10,000 家组织及机构提供服务,包括 Comcast、Condé Nast 及 50% 以上的《财富》世界500强企业,助客户统一其数据、分析和应用 AI。Databricks 生成式 AI 副总裁 Naveen Rao 表示:「 数千家客户在 AWS 上运行 Databricks,利用 MosaicML 对各种用例的基础模型进行预训练、微调及其他操作。Amazon Trainium 为我们提供了训练 Mosaic MPT 模型所需要的规模、高性能以及低成本。Trainium2 令快速构建下一代 Mosaic MPT 模型变得可能,让我们有机会为客户提供前所未有的规模和性能,协助他们在更短时间内推出自己的生成式 AI 应用。」
关于Amazon Web Services
自2006年来,Amazon Web Services一直在提供世界上服务最丰富、应用广泛的云端服务。AWS为客户提供超过240种功能全面的云端服务,包括运算、储存、数据库、网络、分析、机器学习与人工智能、物联网、流动、安全、混合云、虚拟和扩增实境(VR 和AR)、媒体,以及应用开发、部署和管理等方面,遍及32个地理区域内的102个可用区域(Availability Zones),并已公布计划在加拿大、德国、马来西亚、纽西兰和泰国建立5个AWS地理区域、15个可用区域。AWS的服务获得全球超过百万客户的信任,包括发展迅速的初创公司、大型企业和政府机构。通过AWS的服务,客户能够有效强化自身基础设施,提高营运上的弹性与应变能力,同时降低成本。