中电网移动|移动中电网|高清图滚动区

Arm Lumex CSS重磅发布 铺就端侧AI未来智路

9月10日,全球两场重磅发布会掀起本月科技圈发布会的序幕。一边,是大洋彼岸搭载A19系列的全新旗舰iphone 17闪亮登场,凭借新一代硬件升级引发广泛关注;另一边,是中国上海Arm   Unlocked 2025 技术峰会上,Arm  Lumex CSS计算平台重磅发布,全新一代旗舰CPU、GPU、SME2技术同步亮相,为端侧AI的发展和规模普及带来强大动能。

Lumex CSS:Arm 最强 CPU与GPU双登场,看准端侧AI计算的发展

AI从云端向端侧迁移的趋势,正在为芯片产业带来全新的挑战:3nm等先进工艺节点上的设计复杂度大幅提升;芯片有限尺寸下,面积控制和散热效率的平衡要求愈发严苛;为保持AI性能所采用的先进封装技术,也对内存、算力、带宽、延迟等核心指标提出一系列要求,共同构成芯片设计行业亟待突破的新命题。其中最大的挑战,在于AI时代技术快速迭代,市场竞争日趋激烈下,移动端芯片和设备发布窗口的一再提前。

简而言之,芯片设计的方式,以及终端设备的形态,正因AI而重塑。

这样的现实需求之下,Arm 近年来推出CSS集成平台,通过将Arm CPU和GPU IP,与物理实现和部署就绪的软件栈相结合,从而加快产品上市进程,并在最新的先进工艺节点上实现业界领先的性能。而Lumex CSS则是面向移动端市场的最新成果。

这种“平台优先”的方法体现出Arm 正在向计算平台的快速转换,这种转换不仅体现在核心IP层面,也体现在系统层面。它使Arm  的合作伙伴能够更快、更自信、更轻松地集成Arm 的技术——尤其是能够便于针对AI需求而进行扩展。

Lumex CSS可以被视为模块化且高度可配置的平台。其包括:

整体而言,Lumex CSS更像是一个紧密耦合的协同开发设计的整体IP解决方案,它其中包括全新的CPU、GPU、互联、内存管理以及系统IP。此外,结合KleidiAI等软件开发工具,共同带来性能上的强大表现以及设计上的灵活性,应用开发上的便捷性。

不过Arm也强调,合作伙伴可灵活选择使用 Arm Lumex 的方式。例如,他们可直接采用 Arm 交付的平台,并借助为其需求定制的先进物理实现方案,从而获得缩短产品上市时间和快速兑现性能价值等双重优势;或者,合作伙伴也可根据他们的目标市场,以获取RTL交付的方式,对他们的芯片设计进行配置,并自行完成核心模块的硬化工作。

前者这种类似“交钥匙”的方案,能够极大降低芯片设计公司在AI异构芯片设计时的门槛,提升流片成功率,使芯片设计厂商专注于打造差异化创新,提高产品市场竞争力,助力Arm  的生态系统,实现更加高效快速的差异化交付以及领先的AI体验,推动端侧AI实现大规模的部署。

当前,手机、数据中心、汽车等厂商及系统公司,出于软硬协同,打造差异化等原因,纷纷走向自研化芯片之路,如果完全自行开发,意味着数百人的工程师团队、长达多年的研发投入,而通过Arm CSS,将让这件事情变得简单。2023年CSS方案推出以来,帮助合作伙伴将首款芯片的开发时间缩短长达12个月。

通过相对比较低的成本来实现专业化和差异化,并且通过芯片来创造最大的价值。这就是Arm  的CSS平台一经推出便受到市场欢迎的原因。目前,Arm  CSS拥有超过16个设计订单和多个重复订单,其中超过一半在过去一年中实现,体现出市场对此的热情和需求。

最大亮点:C1全线 CPU全面启用 SME2 

过去二十年来,Arm一直致力于在CPU架构上添加AI特性、规范和指令,提升CPU的AI和ML能力。2003年首次发布的Armv7架构增加了高级 SIMD 扩展,也称为Arm Neon 指令。随后 Armv8 架构增加了一系列 AI 的规范和指令,包括点积指令、矢量内矩阵乘法指令和BFloat16支持以及SVE。在Armv9-A中支持了SVE2以及SME等。

值得指出的是,此次新发布的C1 CPU系列通过 Armv9.3 架构直接内建第二代 Arm 可伸缩矩阵扩展 (SME2),显著提升了CPU的AI能力,为加速端侧AI体验带来了革命性突破。苹果去年发布的A18 Pro 芯片中首次采用SME,过去一年,SME一直是果系产品的专属,而此次Arm将升级后的SME2注入Armv9 架构,则填补了安卓阵营在该技术能力上的空白,这也为后续的旗舰手机性能竞争增添了更多看点。

SME是在可伸缩向量扩展(Scalable Vector Extensions, SVE和SVE2)的基础上建立的,并增加了有效处理矩阵的能力,最初出现在Armv9架构中,是一组高级CPU指令,可以明显提升CPU处理矩阵的吞吐量和效率。

据了解,在搭载SME2增强硬件的设备上运行Google Gemma 3模型时,其聊天交互中的AI响应速度比未启用SME2的同款设备快六倍。此外,仅用单个CPU核心,Gemma 3便可在不到一秒的时间内启动多达 800 字的文本摘要任务。目前,一家领先的独立软件供应商 (ISV) 已承诺将其应用中的大部分词元 (token) 生成工作负载从云端迁移到移动端,这在一定程度上得益于端侧AI能力的持续突破。

除了性能的提升,SME2还为Arm 生态系统(如 iOS 与安卓)提供可移植的解决方案。目前,已有 900万款应用在Arm  计算平台上运行,超过2200万名软件开发者基于Arm  平台构建应用和工作负载。

对于开发者而言,他们无需改动现有代码、模型或应用程序,即可直接获取SME2带来的性能提升。这得益于Arm 的软件加速层——Arm KleidiAI,它能够无缝集成到主流运行时库和 AI 框架中,为开发者提供开箱即用的性能体验。

据Arm方面介绍,搭载SME2增强硬件的安卓新机即将上市,开发者可率先通过硬件加速解锁AI性能跃升。与此同时,SME2已支持最新的iOS设备,只要应用中使用了集成SME2的AI 框架,便可自动享受这些性能提升。

整体而言,SME技术的价值不仅在于速度的提升,更在于释放出传统CPU无法企及的AI驱动功能。SME技术体现出Arm 在架构方面的不断创新,赋予了CPU更强大的AI处理能力,同时带来更低的成本和开发门槛,也为端侧AI的普及和规模扩展奠定了基础。

在Arm 看来,SME2是非常适合目前移动设备的需求。

首先,通过不断加持的指令集,SME2可以逐步提高性能和效率,同时它也能够支持较小的数据集和数据类型,包括2位4位,随着每年高度量化模型的不断增多,这类小数据类型在移动生态系统中的重要性正日益凸显。

其次,CPU编程语言相对固定,对于开发而言编程语言和框架相对固定,具有高度的可编程性。GPU在实际使用过程中,对于实际加速的数据类型存在限制,而且和传统的AI工作流程比,GPU更多被用于图形的工作流程中,这无疑会对模型造成一定影响。而NPU而言,并无固定标准的编程框架,其本身的算力和诉求也非常独特,上述因素使得CPU成为AI开发的最佳负载,且具有更高的灵活性。

第三,SME2在CPU上非常擅长处理的一种负载形式,是包括机器学习等对于延迟要求非常高的AI诉求场景。由于SME2本身集成于CPU中,无需将数据推送到其他地方处理,使得其具有极高的响应速度,非常适合目前端侧AI的需求。

结语

此次Arm Lumex平台的重磅发布,通过在CPU、GPU以及移动端平台的创新,Arm 再次拉高了移动计算平台的天花板,无论是对于行业还是对于Arm自身而言都极具意义。

当前,以手机为代表的消费电子市场正在经历缓慢复苏,AI尚处于早期阶段,但对于消费者而言,AI到底能够发挥什么样的价值,成为其购买选择的重要动力,这一点在当前高端手机市场已经有所体现。而Arm  Lumex平台的发布,带来的多项填补行业空白以及引领行业的创新,一方面极大提升了端侧AI的能力,为端侧AI释放价值奠定基础;另一方面,也有助于推动端侧AI的普及,这种AI普惠将使得全行业以及各个消费阶层因此而受益。

近年来,Arm 加速平台化产品组合发展演进,无论是TCS,还是CSS,以及Lumex等子品牌的建立,都是这一策略下的成果。在这个过程中,Arm已成功从 “IP 供应商” 升级为 “系统级方案提供商”。

得益于蓬勃发展的AI时代浪潮,转型中的Arm 正在持续收获成功。在刚刚过去的几个财季,Arm的财务指标连续创下季度新高,其中包括实现单季营收破10亿美元的壮举。在数据中心、汽车电子等新兴市场也持续实现突破。

 Lumex CSS平台可以被视为其在端侧AI时代的 重要“战略锚点”。 今年是Arm 架构推出四十年,站在新的历史节点,Arm  在端侧AI的影响力进一步得到重塑,Arm  品牌也因此而焕发出全新价值。

猜你喜欢
中电网移动|移动中电网|频道导航区