AI芯片即将被颠覆？效率比CPU高100倍，功耗比GPU低1000倍

2024-03-13 09:22:16 互联网

作者: 付斌

上世纪，一个名为“skunkworks”的项目构建了一个工程工作站，它的算力在当时非常出色，但为了驱动这个大家伙，处理器和主板都依赖着复杂的水冷系统散热。巧合的是，这一散热系统发生了故障，最终计算机内部完全被熔化。

现在，随着通用算力诸如GPU需求增加，加之每年部署的边缘设备越来越多，更多人开始关注计算的能源需求和散热。也就是说，谁能在更低功耗释放更多算力，就能赢得未来。

这两天，国外一家芯片初创公司Efficient Computer脱离“隐身模式”，并推出一款可重新配置的数据流处理器架构（Reconfigurable Dataflow Processor Architecture）的处理器——即Fabric架构。

根据该公司的介绍，其Fabric架构的效率比市场上领先的通用CPU高出100倍，功耗比GPU低1000倍，标志着通用边缘计算新时代开始了，解锁了以前因能源限制而受到限制的广泛应用。

事实上，可重构芯片是一个早被关注的芯片路线，不仅备受魏少军等专家青睐，国内也有产品已经面世。

颠覆市场的芯片架构

根据外网透露，Efficient的Fabric架构是在卡内基梅隆大学七年多的研究中开发的，目前已经拥有了首款名为Monza的测试芯片，但该公司尚未透露基于Fabric架构的芯片的实际性能数据。

不过可以肯定的是，这种架构下的处理器，性能不是一般的强劲——即上文所述的效率比市场上领先的通用CPU高出100倍和比GPU低1000倍的功耗，能效比则比市场上领先的通用CPU高出100倍。

也就是说，它不仅能够实现更低的运营成本，还能消除边缘计算的能量障碍，整个数字芯片的市场逻辑都会被颠覆。

所以，可重构处理器架构究竟是何方神圣，为什么能这么强大？

根据Efficient的介绍，传统通用处理器能够处理几乎所有可能的工作负载，甚至可以与几十年前发布的软件向后兼容，这大大增加了它们的复杂性，最终增加了功耗。

这些处理器过度的通用性，导致大量精力花在不必要的内部数据移动和指令控制开销上，

可重构架构顾名思义就是能够重新配置的数据流处理器架构，专为特定用例量身定制，可在其“计算结构”上并行执行经过特殊优化的代码。特别是在低功耗嵌入式和边缘计算中，并且需要支持通用编程语言的专有软件堆栈（编译器）。

运行原理可以解释为，来CPU资源通过软件针对特定工作负载进行调整，大大提高效率。同时，Efficient称Fabric可以处理通用数据处理计算、数据分析，并用于AI和ML，这表明Efficient正在处理一个固有的并行架构。

Efficient的软件堆栈支持主要的嵌入式语言，因此实际应用程序的开发人员将能够快速地重新编译结构架构的代码。但对这种架构来说，重新编译软件是必须的，因此软件兼容性将是可重构处理器的局限。

目前，Efficient Computer已获得Eclipse领投的1600万美元种子轮投资，Eclipse是一家风险投资公司，曾为Cerebras、FlexLogix和Tenstorrent提供资金。

可重构芯片，不是FPGA

原清华大学微电子所所长、IEEE Fellow魏少军，是第一代可重构计算架构的缔造者。

“动态可重构芯片很多时候被误解成FPGA。不仅在国内，在国际上也是如此。”魏少军曾在论文中写道，根据介绍，早在20世纪60年代初，可重构概念就已经被提出，经过将近60年时间，可重构问题才真正意义得到突破，说明该技术难度非常高。

所谓可重构，可分为静态重构和动态重构，最典型的具有静态重构特征的可重构计算芯片是FPGA，而本文所介绍的重点是“可重构”是动态重构架构的处理器，因此统称“可重构芯片”。

人们熟悉的CPU、DSP硬件可编程性弱，软件可编程性强；ASIC、SoC软件和硬件可编程性都弱；FPGA、EPLD硬件可编程性强，但软件可编程性弱。

可重构芯片则不仅软件可编程，还要硬件可编程，有时称为RCP或CGRA等，其特点是：软件硬件都可以编程、混合粒度、芯片的硬件功能随软件的变化而变化，应用改变软件、软件再改变硬件。此外，可重构芯片与CPU等处理器有很多类似的地方，开发者不需要底层芯片设计知识。

总结起来，可重构芯片与传统芯片预期特点和潜在能力可总结为：

• 软硬件可编程；
• 硬件架构的动态可变性及高效的架构变换能力；
• 兼具高计算效率和高能量效率；
• 本征安全性；
• 应用简便性，不需要芯片设计的知识和能力；
• 软件定义芯片，也就是说它是一种“通用的专用芯片”，既具备了通用性又具备了专用性；
• 实现智能的能力，比喻来说就是芯片使用过程通过“教育”不断地自我“学习”并改进。

动态可重构芯片的属性分类，图源｜科技导报

那么问题来了，既然有FPGA，也有ASIC，我们为什么要再花大力气研究可重构芯片？

事实上，随着集成电路工艺技术进步到14nm， ASIC综合成本高达1.5～2亿美元，通常要销售 3000万颗以上，才能将研发成本合理地摊销到每颗芯片上，但ASIC本身以多品种、小批量为特色，销量很难得到保障。而FPGA相比ASIC，没有能量效率和计算效率优势。

可重构芯片就是解决上述问题应运而生的方案。论文中介绍：“设想一下，如果只生产一种‘通用’的芯片，其功能可以通过软件改变，当不同的软件写入就变成了‘专用’的芯片。这将是非常理想的情况。如果这个想法能实现，可以认为软件定义芯片就成为了现实。”

可重构芯片的基本架构仍然采用专用集成电路基本架构，不一样的是，控制单元变成了通用的控制单元，通用数据通道是一个克根据需要自行定义的二位处理单元（PE）阵列，既可以同构，也可以异构，采用数据驱动方式运行。

可重构芯片的基本架构，图源｜科技导报

当然，世界上没有那么十全十美的事情。可重构芯片的开销明显，例如，在DISC II系统中，25~71%执行时间花费在重构上，在UCLAATR中重构时间达到了98.5%。

此外，它的编程复杂度较高，传统CPU使用Java、C/C++等成熟编程语言，可重构计算则需要对硬件进行编程，通常使用硬件编程语言（如Verilog、VHDL等），这些语言很难掌握。

更重要的是，制程工艺跟随摩尔定律每两年更新一次，架构更新带来的性能提升不如工艺更新来得直接，可重构芯片的核心技术又太多了（配置信息量大幅减少及“隐式配置-数据驱动”技术、配置信息高效加载及相关性感知缓存及轮摆式加载技术、高效阵列架构及控制密集型任务并行化方法、时域空域协同映射技术），所以这么多年，可重构计算几乎被埋没在历史中。

中国已有产品开始面世

发展可重构计算，就是布局未来。而中国一直在可重构芯片上不断探索。十多年前，我国学者就敏锐地意识到可重构计算技术的巨大潜力，并在八六三计划重点课题及国家科技重大专项的支持下，进行了长期的研究，取得了一系列具有重要国际影响力的研究成果。

2015年4月，清华大学与英特尔进行过合作，以英特尔的处理器架构（Intel Architecture）和清华大学的可重构计算（Reconfigurable Computing）构建新型计算硬件和软件研发，

2018年1月24日， MIT Technology Review专题报道了可重构芯片的研究成果，认为该技术能动态调整计算和内存参数来满足实时 AI 软件的不同需求，是中国取得的一个“Crowning Achievement”，是中国大陆的半导体技术成果近5年来第二次被《MIT Technology Review》报道，成果得到了国际同行的高度认可。

现在，中国已经开始涌现诸少量公司和产品。

清微智能

清微智能是国内可重构计算（CGRA）商业化走得比较快的企业，于2018年7月成立，由清华大学微电子学研究所的魏少军教授及尹首一教授领衔，全球首家也是出货量最大的可重构计算芯片商用企业。这家公司的主要思路是将产品推向云端训推一体、边端自动驾驶、安防监控等智能计算场景。

虽然在2018年才正式成立，不过魏少军教授和尹首一教授的带领的团队在2016年和2017年就分别推出了Thinker-I、Thinker-Ⅱ及Thinker-S等基于CGRA结构的加速器芯片。

2019年，量产首颗芯片TX210，可以应用于智能手机、可穿戴智能设备、小家电、大家电、玩具、车载等场景数百万颗的销量不仅第一次用市场证明了可重构计算的商业价值，而且使智能穿戴设备的芯片设计理念发生了巨大改变。

在语音芯片上旗开得胜后，清微智能又推出全球首款可重构多模态智能计算芯片TX510，为IoT设备的超低功耗视觉处理芯片。

不止如此，清华大学集成电路学院尹首一教授、魏少军教授团队在ISSCC 2022上，提出可兼顾能效、精度和灵活性的AI芯片新范式，可重构数字存算一体架构，并设计出国际首款面向通用云端高算力场景的存算一体AI芯片ReDCIM（Reconfigurable Digital CIM）。

ReDCIM芯片使用TSMC 28nm工艺成功流片，首次在存算一体架构上支持高精度浮点与整数计算，满足云端AI推理和训练等各种任务需求。

鲲云科技

鲲云科技的思路是将可重构计算用在大算

力需求巨大的数据中心内，即现在爆火的AI芯片，该公司成立于2017年。

2020年，可重构数据流AI芯片企业深鲲云科技正式发布全球首款可重构数据流架构AI芯片 CAISA，相比国际同类产品在芯片利用率指标上实现数量级提升，芯片利用率最高可达95.4%。

鲲云科技推出的基于CAISA芯片的系列算力产品已服务中国移动、中国联通、中国电信、中国铁塔、浪潮集团、中控技术等700多家信息化企业，所交付的算力产品支撑客户在石化、矿山、电力、城市生命线等20多个行业、数千个数字化项目稳定交付。

该公司日前完成完成数亿元C轮融资，此轮融资由普罗资本领投，鼎晖百孚、联通旗下联创基金、张科垚坤基金、钟楼金控集团跟投，主要用于支持下一代可重构数据流CAISA AI芯片的研发和规模落地。

AI芯片作为人工智能时代的基础设施与核心动能，重要性日益凸显。该公司的目标是利用 CAISA架构创新让更多客户用上性能更高、更便宜、更好用的AI芯片。

千芯科技

千芯科技是把时下两个热门概念融合在一起的的公司，布局可重构存算AI芯片，即可重构计算+存算一体，该公司成立于2019年。

如今，千芯科技第一代可重构存算AI芯片已通过互联网大客户验证，并进入互联网大客户的供应商名录，也在逐渐与做自动驾驶的厂商沟通，以IP形式授权核心技术。

澜起科技

去年1月，澜起科技发布了第四代津逮CPU。

虽然CPU部分是英特尔的第四代至强可扩展处理器，不过在其CPU内部还有另一个与清华大学合作的安全模块，该安全模块为可重构计算安全检测模块，也就是说CPU的另一部分由国内完成设计。

媒体也曾评价，Chiplet技术的出现允许我们在“造芯片”的时候由浅入深地提高芯片内部使用的“国产成分”比例。

AI市场，或将被颠覆

可以说，可重构计算芯片对于现在爆火的AIGC来说，至关重要。

随着现行半导体工艺线宽逼近物理极限，依靠工艺技术获得集成电路性能和功耗的改善越来越困难。通过架构创新延续摩尔定律，并持续在性能、功耗和成本上获得收益成为当前国际研究的热点。

2015年，国际半导体技术发展路线图（ITRS）认为，粗颗粒度可重构架构（CGRA）是未来最有发展前途的新兴计算架构之一。

无独有偶，美国DARPA提出的电子振兴计划就把架构创新作为三个重点研究方向之一。

但一颗芯片，在进入商业化的市场时，不仅要面对客户的各种考验，还要具备更好的性价比。反观目前市场，玩家数量较为稀少，技术成熟度还远未达到理想程度。

不过，在摩尔定律愈加放缓的现如今，改善结构这一条路，愈发明亮。可见这一赛道或许在AI芯片需求暴增的现在，呈现即将爆发的态势。