Arm 携手 Stability AI，通过 Arm Kleidi 实现端侧音频生成速度 30 倍提升

2025-03-27 14:26:42 互联网

想象一下，你正在智能手机上编辑视频，需要为其添加合适的音效；或是你想要生成自定义声音，用于设置铃声、闹钟或发布社交媒体帖子。你无需在网上搜索或购买音频片段，只需输入一段描述，例如“日落时的轻柔海浪声”，几秒钟后，你的设备就会为你生成合适的声音，甚至无需联网就可实现。得益于 Arm 和 Stability AI 的新合作，这种完全在端侧直接生成音频的技术已变为现实。

Arm 与 Stability AI 携手合作，加快文本转音频的响应速度

Stability AI 是一家专注于图像、视频、3D 和音频领域人工智能 (AI) 模型开发的公司。而 Arm KleidiAI 能够提供专门针对 Arm CPU 的经优化的性能关键例程（即微内核）。通过 KleidiAI 与 XNNPack 库和 ExecuTorch 框架的集成，以及 Stability AI 自身的优化，为 Stability AI 的文本转音频开放模型“Stable Audio Open”带来了显著的 AI 性能提升。

令人惊叹的结果包括文本转音频的 AI 生成时间从几分钟大幅缩短至几秒钟，响应速度提高了 30 倍。Stable Audio Open 模型完全在基于 Arm CPU 的智能手机上运行，且无需联网，对于文本转音频 AI 来说是首创之举。

Stability AI 利用 KleidiAI 自动加速功能，加快模型的响应速度，从而在不影响质量的情况下提升了端侧 AI 性能。KleidiAI 带来的性能提升，无需 Stable Audio Open 模型用户额外投入开发精力，节省了时间和成本。Arm 和 Stability AI 将继续合作，以实现更多性能的跃升，带来更为出色的 AI 用户体验。

显著的性能提升表明，具有针对性的硬件和软件集成，使过往无法实现的 AI 应用在移动端变得可行，从而推动了未来的创新机遇。Arm 技术驱动了全球 99% 的智能手机，这也意味着数十亿智能手机用户现可取得先进的 AI 音频功能。

共同应对复杂的 AI 挑战

Stable Audio Open 模型具备出色的效率，但在智能手机的 CPU 上直接由端侧运行该模型仍非易事。在初期尝试时，单个音频样本的生成时间超过四分钟，这对终端用户而言不太能接受。

通过与 Arm 合作，Stability AI 将模型的训练参数量蒸馏到适合移动端的规模。然后，通过新的蒸馏模型，并利用 XNNPack 与 ExecuTorch 集成带来的 KleidiAI 性能加速，实现了在移动端 Arm CPU 上几秒内就生成音频片段。

Stability AI 首席执行官 Prem Akkaraju 表示：“随着越来越多的专业创意工作者和企业采用生成式 AI 来帮助提升其生产流程，我们的模型和工作流必须随处可得，以供构建者和创作者使用，这一点至关重要。我们很高兴能就此与 Arm 合作。从服务器到智能手机，Arm 平台在整个生态系统中应用普及，并且 Arm 通过将 Arm Kleidi 集成到软件栈中，致力于加速各类主流框架中的 AI 模型，因此 Arm 是我们的不二之选。”

文本转音频 AI 的兴起

自 2022 年以来，Stability AI 始终立于生成式 AI 发展的前沿，曾凭借行业领先的图像模型 Stable Diffusion 引起轰动。依托 Stable Diffusion 的成功，该公司随后推出了 Stable Audio，这是首个完全获得授权的音频模型之一，专为通过文本提示词生成高质量的音乐和音效而设计。这些 AI 模型在 Hugging Face 等主要平台上均排名前茅，拥有多达数百万规模的用户数，构成了一个活跃的技术社区。

人人皆可享先进的音频 AI 体验

这一成果仅仅只是双方合作的开始，Arm 和 Stability AI 已规划了更多的性能优化举措，旨在为用户带来更加出色的使用体验。通过携手合作，Arm 正在为音频、图像、视频和 3D 领域的端侧 AI 打好基础，重塑每个人创作内容和与数字媒体互动的方式。通过蒸馏先进的模型并利用经过优化的软件，部署到人们常用的硬件设备上，从而为未来铺平道路，实现人人都能通过口袋里的设备直接享受先进的 AI 应用、模型和体验。