新闻重点:
• Arm 通过把 Kleidi 技术集成到 PyTorch 和 ExecuTorch,将关键的 AI 性能优势从边侧拓展至云端,赋能新一代应用在 Arm CPU 上运行大语言模型。
• 对普及 ML 工作负载的持续投入将使任一技术栈的开发者能够在最新的生成式 AI 模型上即刻获得显著的推理性能提升。
• 通过扩大与云服务提供商以及主要的 ML 独立软件开发商合作,进一步赋能全球的 AI 开发者。
Arm 控股有限公司(纳斯达克股票代码:ARM,以下简称“Arm”)近期宣布通过将 Arm® Kleidi 技术集成到 PyTorch 和 ExecuTorch,赋能新一代应用在 Arm CPU 上运行大语言模型 (LLM)。Kleidi 汇集了最新的开发者赋能技术和关键资源,旨在推动机器学习 (ML) 技术栈中的技术协作和创新。通过这些重要进展,Arm 致力于为任一 ML 技术栈的开发者提供更为顺畅的体验。
Arm 战略与生态部开发者技术副总裁 Alex Spinelli 表示:“Arm 正与领先的云服务提供商和框架设计者紧密合作,以打造便捷的开发环境,让软件开发者能够轻松地在基于 Arm 架构的硬件上加速人工智能 (AI) 和 ML 工作负载。自该技术推出的四个月以来,Kleidi 已在 Arm CPU 上加速开发并显著提升主要的 AI 性能。Arm 与 PyTorch 社区的紧密合作印证了该技术可以大大减少开发者利用高效 AI 所需的工作量。”
与领先框架集成,实现显著云端优势
在云端,Kleidi 以利用 Arm Compute Libraries (ACL) 增强 PyTorch 带来的成果为基础,为世界各地在 Arm 平台上优化 AI 的开发者打造蓝图。通过为开发者免去不必要的工程工作,以便开发者能将 Arm 视为运行其关键 ML 工作负载的首选平台。作为实现这一愿景的关键一步,Arm 直接与 PyTorch 和 TensorFlow 进行 Arm Kleidi Libraries 的集成合作,这包括将基本的 Arm 软件库直接集成到上述的领先框架中。
重要的是,这意味着当新的框架版本发布时,应用开发者能够自动从其大幅的性能提升中受益,而无需额外在 Arm 平台上重新编译。这项投入已对合作伙伴关系产生了积极影响:
• Arm 聊天机器人演示由 Meta Llama 3 LLM 驱动,并运行在亚马逊云科技 (AWS) Graviton 处理器上,首次在主线 PyTorch 中实现了实时聊天响应。
根据在 AWS Graviton4 上所测得的数据显示,通过将 Kleidi 技术集成到开源 PyTorch 代码库,词元 (token) 首次响应时间可提高 2.5 倍。
• 通过优化 torch.compile 以充分利用通过 ACL 提供的 Kleidi 技术,在基于 AWS Graviton3 上所测得的数据显示,各类 Hugging Face 模型推理工作负载上的性能可提升 1.35 至 2 倍。
这些仅是出色的云端示例之一,却代表了在 Arm 平台上普及 ML 工作负载时可实现的性能加速类型。Arm 将持续投入,以确保开发者的 AI 应用可以在其技术上从云到边都能完美运行,其中包括实现新功能的向前兼容,进而使得开发者能够即刻从中受益。
合作助力开发者紧跟生成式 AI 发展步伐
随着新的语言模型版本快速地推陈出新,生成式 AI 掀起了一波 AI 创新热潮。Arm 持续与 ML 技术栈的各个关键环节紧密合作,携手 AWS 和 Google 等云服务提供商以及 Databricks 等迅速壮大的 ML 独立软件开发商 (ISV) 社区,进而帮助开发者立于技术前沿。
Google Cloud Compute 产品管理高级总监 Nirav Mehta 表示:“Arm 和 Google Cloud 致力于为开发者提升 AI 的可访问性和敏捷性,而 Kleidi 代表了通过软硬件协同优化满足 AI 需求所取得的重要进展。随着我们的客户正积极采用基于 Arm 架构的定制 CPU —— Axion,我们期待在整个 ML 技术栈中为客户带来更加顺畅的集成体验。”
Databricks 软件工程师Lin Yuan 表示:“利用 Databricks Data Intelligence Platform 进行 AI 和 ML 工作流的企业,将受益于跨 ML 软件栈的 Arm Kleidi 集成所带来的性能优化。借助由 Databricks ML Runtime 集群提供支持的 Arm 架构 AWS Graviton 处理器,企业可以从各种 ML 软件库的加速中受益,同时降低云服务提供商的成本。”
协助开发者将 Arm 提供的资源应用到实际用例中至关重要,为此 Arm 创建示例软件栈和学习资源,向开发者展示如何在 Arm CPU 上构建 AI 工作负载,进而迅速推动了 Arm 系统的广泛采用,并加快了开发者在 Arm 系统上的部署速度。第一个案例是通过 Kleidi 技术加速聊天机器人的实现,今年晚些时候 ML Ops 和检索增强生成 (RAG) 也将添加至这些用例,并计划在 2025 年实现更多成果。
持续提升端侧性能
基于 Kleidi 在端侧的发展势头,KleidiAI 还将被集成到 ExecuTorch(PyTorch 新的端侧推理运行时)。这项集成预计将于 2024 年 10 月完成,并有望为目前正在 ExecuTorch 中进行生产测试或实现的端侧应用带来显著的性能提升。目前已完成的多项 KleidiAI 集成包括与 Google XNNPACK 和 MediaPipe,以及腾讯的混元大模型,为其实际工作负载带来了显著提升。
Kleidi 将继续与 PyTorch 和 ExecuTorch 的各版本以及其他主要 AI 框架进行集成。从云数据中心到端侧设备,开发者现在可以即刻在各类设备上基于 Arm 平台高效运行高性能 AI 工作负载。Arm 将继续积极地面向 PyTorch 社区推出增强功能,并专注于针对各种整数格式提供量化优化,进一步提高性能,赋能 Arm CPU 大规模无缝运行新一代 AI 体验。
实现更多成果以赋能开发者
PyTorch 正在推动 ML 开发领域的开拓创新。近日,Arm 加入 PyTorch 基金会成为 Premier 成员,这对于 Arm 的 AI 之旅来说,无疑是一个重要时刻。Arm 将持续致力于赋能全球各地的开发者在 Arm 平台上充分发挥端到端 AI 的潜力,进而塑造前沿的 AI 和应用功能。
附加资源:
关于 Kleidi:
Kleidi(古希腊语中意为“钥匙”)基于三大关键支柱而构建:
• 开放的 Arm 技术直接集成至关键框架中,开发者无需任何额外工作,便能使 LLM 无缝取得 Arm CPU 性能。Arm 将确保新技术始终向前兼容,以便开发者可以立即从中受益。
• 通过提供使用指南、学习资源和技术演示等各种资源赋能开发者。
• 借助由 ML 软件供应商、框架和开源项目所构成的活力十足的生态系统,从中取得各类最新的 AI 功能,让 Arm 平台成为开发者构建解决方案的首选平台。
关于 Arm
Arm 作为业界性能最强、能效最高的计算平台,以无可比拟的规模,覆盖全球 100% 的联网人群。Arm 提供先进的解决方案以满足对计算永无止尽的需求,进而赋能全球领先的科技公司释放前所未有的人工智能体验和性能。Arm 携手全球最广泛的计算生态系统和 2,000 万软件开发者,共同在 Arm 平台上构建人工智能的未来。