当今世界充满了越来越复杂的高科技设备,这些功能过去只是在科幻小说中提到过。当我们使用联网设备并使用手机拍摄高清照片时,很少有人会考虑底层技术。很少有人意识到每个设备内的物理和市场动态所造成的紧张感,这使得每一代设备都越来越难以设计和制造。
对低功耗和更多功能的追求,推动了集成度的发展。反过来,这需要更小的硅几何尺寸,其中要求设计人员采用 28-nm、16-nm、12-nm、7-nm、5-nm 及以上工艺。随着硅工艺几何形状的每一次减少,设计和制造成本都会非线性增加。设计更小的几何形状需要越来越稀有的专业知识、更长的设计时间、增加的设计工具成本和增加的程序风险。
这些呈指数增长的设计成本必须在项目生命周期内运送的设备数量中摊销。不幸的是,随着全球竞争的加剧,应用程序功能的多样性增加,产品寿命缩短。更少的设计可以证明定制硅的费用是合理的,更少的公司可以吸引越来越稀有的人才来设计它。
至少从理论上讲,诸如 FPGA 之类的可编程技术可以缓解其中的许多问题,但传统的 FPGA 体积大、效率低且价格昂贵,通常将它们归为原型和调试的角色。Efinix 通过生产低功耗、高效的 FPGA,这些 FPGA 的密度足以支撑计算密集型任务,售价也符合大批量部署预期,从而直接解决了这些市场需求。本文讨论了 AI 硬件设计和部署背后的经济学,将它们的优势和考虑与 Efinix 的 FPGA 技术联系起来,阐明了在存在替代硬件的情况下,芯片级设计和制造的巨额成本和负担如何变得越来越不合理的原因。
定制ASIC的巨大成本
从头开始设计芯片需要从成本、专业知识和时间角度来看几乎无法估量的投资,最终将 IC/芯片设计行业几乎完全交给拥有持续投资的公司。有时,一群工程师从一家大公司中解脱出来,创建一家初创公司并产生 IP。然而,进入的门槛通常很大,以至于想法在构思出来后难以付诸实施。这种硬件“障碍”从本质上扼杀了创新,尤其是在新兴的计算密集型 AI 领域,在该领域中,几乎每个垂直行业的关键和非关键任务的应用程序都在不断地裁剪。就需要软件所需的处理能力复杂、计算密集、耗电等不断更新。通常情况下,生成定制芯片来支持这些不断变化的需求的成本是不合理的(图 1)。
设计开发成本
首先,需要电子设计自动化 (EDA) 软件来执行基本的 IC 和布局设计、仿真和验证。 EDA 软件生态系统为设计流程的各个方面提供了丰富的工具,可以在计划内优化设计。该软件的价格很高,单个许可证每年从数万美元起,最高可达数十万美元。分布在数十到数百台机器上,这个数字成倍增加,很容易突破百万美元大关。这只是芯片成本的一方面。为了生成最终产品,公司可能会购买 IP 或模拟/数字硬核,以将特殊的 I/O 功能集成到他们的设计中。IP核开发产业本身就是一个价值数十亿美元的产业;正因如此,购买IP的成本也达到了百万美元大关。如果一家公司有闲钱,那么依靠专业的无晶圆厂半导体公司的外包硅 IP 要比花费时间和NRE成本在内部开发更简单、更快捷。
制造成本
完成芯片设计是一项艰巨的工作,其中流片过程需要工程师团队在广泛的全局模拟、分析、关键设计审查、迭代电路/布局改进和掩模sign off,以确保设计可制造性并生成光掩模的最终 GSDII 文件。随着晶体管尺寸的缩小,光掩模的质量对于精确制造最初设计的芯片至关重要。这个过程很容易出错,因为它是从软件设计到创建的转变芯片的。公司在这种耗资数百万美元的制造过程中投入巨资,通常会依靠多项目晶圆 (MPW) 或硅“shuttle”来降低风险。这允许设计公司通过购买部分 MPW 并与多方分摊总掩模成本,在流片之前生产他们的样片。这些可以令IC 公司在投资完全流片之前获得并验证几千个芯片样片。
测试和包装成本
为了最大限度地提高新型堆叠芯片级封装 (SCSP) 和系统级封装 (SiP) 设计的良率,供应商要求芯片制造商提供已知良好的裸片 (KGD)。虽然这会增加裸片的成本,但最终会降低封装缺陷。裸片测试是一个棘手的过程,涉及定制的测试卡,其中数以千计的探针压在bump上,通过电压、电流和温度应力测试来测试缺陷。有缺陷的裸片被返厂,而 KGD 被运出至封装厂进行组装。所有这些额外的步骤都伴随着额外的成本。封装裸片本身是一门科学,既有寄生电感和电容,也有严格的热管理考虑。电热协同仿真对于检测和优化热问题是必要的,这又为最终设计增加了另一层次的复杂性和专业知识。热分析后,封装厂交付测试厂,之后准备组装。但是,当问题和硬件/软件升级不可避免地发生时,整个过程将重新开始。这使得整个过程的成本飞涨,使得较小的竞争者无法进入 ASIC 或 IP 设计领域。
图 1:围绕定制芯片及其相关成本的设计和开发过程。
摩尔定律的崩溃:更小的器件几何尺寸背后的挑战
摩尔定律的明显放缓进一步加剧了ASIC的困难,为了满足芯片越来越高的性能要求,制造商不得不转向制造大芯片。然而,随着芯片尺寸的增加,由于缺陷和制造错误的风险增加,良率下降。这些促使半导体制造商和设计公司寻求其他可行的解决方案,包括将单片 IC 的功能分解为互连的Chiplets,以执行计算密集型流程。
Chiplets
小器件封装已经从 1980 年代的多芯片模块 (MCM) 到系统级封装设计,再到现在的Chiplet。在Chiplet设计中,理论上的“大芯片”被划分为定制设计的、硬化的 IP 块(或更小的芯片),可以更经济地制造。这些Chiplet与其他模块共同优化,所有这些模块都通过标准化接口连接,模仿 SoC 的功能,但以更低的成本和更短的时间构建。芯片可以由不同的制程组成,其中一些采用 28 nm经济的工艺,或者采用最新的尖端 7 纳米(或更低)的EUV工艺。基于 TSV 的硅中介层 (2.5D)、堆叠芯片 (3D)、嵌入式多芯片互连桥 (2.5D) 或扇出 MCM 之间的封装拓扑结构可能有所不同。
与制造大型 SoC 并试图通过塞入更多功能和能力来更新技术相比,基于小芯片的 ASIC 更具成本效益。从理论上讲,每个模块都有可能被重用或扩展用于未来的硬件设计迭代,其中芯片到芯片的标准化接口可实现模块之间的互操作性,从而缩短上市时间。从设计的角度来看,这种易于升级的能力不容忽视,支持与其他Chiplet混合使用,以形成一个新系统。然而在实践中,只有少数几个定义良好的标准接口。仍然有许多未标准化的接口阻碍采用来自第三方的Chiplet库,这些第三方根本不知道要设计使用什么标准。通常,这些接口的速度非常快,因此往往会推动封装设计朝着更昂贵的方向发展。
Chiplet设计是一项相对新兴的技术,其中大部分知识由大型芯片开发商和制造商掌握。对于芯片设计人员来说,在未来的 ASIC 项目中使用Chiplet具有很大的潜力。这种新的设计方法在一定程度上避免了越来越麻烦的成本和开发时间瓶颈。然而,对于任何无法投资于产生和优化产品所需资源的公司来说,iplet,根本就行不通。
嵌入式处理器
通常,留给设计人员使用的唯一工具是使用标准嵌入式处理器并尽可能多地采用软件进行设计,仅在必要时才修改硬件。这样,定义的标准和功能使标准硬件设备可跨多个市场使用,以支撑其量产销量。设计人员需要尽可能多地在软件中实现,并在必要时连接少量胶合逻辑和外围设备。在某些情况下,模型分区是跨多个内核完成的,以加快并行处理时间。 GPU 是当前深度神经网络 (DNN) 训练的标杆。这带来了几个挑战——需要一个复杂的控制单元,而且经常有冗余内存访问,导致系统功耗上升。并且由于这些处理器的通用性,特定于 DNN 算法的硬件优化很少被发现。对 ML 算法的升级和更改变得难以实施,需要更多的处理能力。这只是一种妥协;理想情况下,处理器和加速器应位于一块芯片中。这样,可以快速优化系统性能。
使用 FPGA 进行硬件加速的成本和计算优势
将 ML 算法映射到硬件是一个复杂的过程,涉及在数据准确性、吞吐量、延迟、功耗、硬件成本、灵活性和可扩展性之间进行平衡。投入更多处理内核很快就会变得不切实际,特别是如果问题涉及到成本和功耗等方面。在 FPGA 上实现硬件加速比使用嵌入式处理器要简单得多。这是由于硬件架构的根本差异,CPU和GPU只能实现数据并行,而FPGA(和ASIC)同时提供数据和流水线并行。在 CPU 或 GPU 中,每个处理器根据单指令、多数据执行模型执行相同的任务,对不同的分布式数据执行相同的任务,或者处理单元 (PE) 在每个时钟周期执行相同的操作,同时对数据进行分区并并行分发给PE。在 FPGA(和 ASIC)中,指令集中的不同任务可以在每个时钟周期并发执行,从而流水线中的每个 PE 可以并行获取具有不同时间戳的数据。这为具有数据并发性和依赖性的 DNN 提供了快速的硬件加速。
为了更好地形象化这一点,可以使用冲压工厂的实际示例。工厂通过切割、冲压和贴标签来处理吹产品。CPU 或 GPU 可能能够处理一大排,然而,每一行在进行冲压之前都会经历相同的切割任务。标记一行后,下一个时钟周期将专用于标记它们。另一方面,FPGA 将能够同时处理多排产品——当一排产品被切割时,另一排被压印,另一排被标记,所有这些都在同一个时钟周期内。通过这种方式,可以充分利用 FPGA 流水线,使它们本质上更加高效。 DNN 计算和数据移动的优化技术可以在 FPGA 硬件上更好地实现。 FPGA 允许设计人员处理适合特定应用的数据包,并且可以为应用精确地缩放和调整通信协议和拓扑。
与 ASIC 相比,FPGA 还为 AI 提供了重要的优势。无论制造商是否使用了更具成本效益的chiplet封装技术,一旦 ASIC 被制造出来,设计人员或多或少会被计算的数据类型以及数据流的性质所困扰。FPGA 提供了一个更通用的平台,它提供了 ASIC 的流水线并行能力,没有应用偏见、蚀刻电路和高昂成本。 FPGA 还受益于使用尖端电路设计、制造、晶圆加工和封装技术的最先进工艺。越来越多的 FPGA 使用 FinFET 技术构建在 16 纳米或更小的节点上,最终用户或多或少地从这种成本负担中得到了缓冲。与模拟/混合信号 IC、布局、信号完整性、电源完整性和半导体封装工程师团队相比,获得 VHDL 的设计专业知识要便宜得多,也更容易获得。软 IP 核本身只是硬 IP 核成本的一小部分,与硬件过时相关的成本风险相比要小得多,只要应用需求发生变化,I/O 接口也会随之变化。
FPGA 生态系统概览
到 2026 年,全球 FPGA 市场预计将超过 90 亿美元,其中大部分增长归因于用于数据中心和高性能计算应用程序。现代 FPGA 市场主要由计算频谱的极端驱动,一端是高端、耗电的 FPGA,另一端是低端、胶合逻辑 FPGA(图 2)。
在 1980 年代,FPGA 在具有晶体管-晶体管逻辑 (TTL) 的胶合逻辑中找到了自己的利基,用于快速设计和系统原型设计,将 IP 与通用 I/O 协议和通信接口“胶合”在一起。近十年,FPGA 变得越来越复杂,引入了大型 SRAM 模块、嵌入式数字信号处理 (DSP) 模块中的乘法累加器、软核嵌入式处理器、I/O 和 SerDes 接口。这给以前由 CPU、GPU 和 SoC 主导的市场带来了一定程度的设计灵活性,能够通过可重新配置的平台生成软 IP。数据中心开始利用功能强大的高端 FPGA 来加速大规模数据中心的性能,用于加密、压缩、过滤和虚拟交换。这形成了性能和计算效率之间的平衡以及可重构性的额外巨大优势。深度学习网络正处于不断升级的过程中,不断更新新的层类型和不断变化的数据集。出于这个原因,FPGA 已被视为适合于推理的可编程加速器。FGPA 已被证明是通过优化数据移动、修剪网络、降低算术精度和稀疏化来有效实现 DL 算法的强大工具。
在这个不断增长的人工智能应用生态系统中,更新模型、优化技术和支持硬件加速,低端和高端 FPGA 之间的差距越来越明显。自动驾驶和地面车辆、医疗保健、视觉识别、欺诈检测以及更多应用的机会将不可避免地需要完全相同的可重新配置平台,但采用更具成本效益、耗电更少的封装。
图 2:FPGA 及其潜在应用。
使用可定制、经济高效的 FPGA 打破定制芯片的束缚
本文的主要目的是揭示生成定制芯片的成本和专业知识方面的困难,这使得市场上竞争者寥寥,通用 CPU 和 GPU 解决方案非常适合某些 AI 应用程序,但在其他应用程序中存在固有限制,进一步限制了开发人员可用的解决方案。 Efinix FPGA 非常适合需要低功耗、低延迟、低成本、小尺寸和易于开发的 AI 应用。
使用 Efinix 计算结构的 FPGA 体积小、功耗低且高效。它们按批量部署定价,其中最低端型号的起价为 10 美元,开发套件起价为 48 美元(图 3)。它们是预定义的标准产品,并且通过 Efinix 平台的硬件加速无需 NRE,从而将上市时间缩短数年并节省数百万美元的开发成本。这些新的经济效益正在开启因芯片开发成本而停止的研究工作。它们的可重新编程特性确保了快速调试,降低了程序风险,并且最终的设计在现场部署之前(以及之后)保持灵活。设计人员可以“免费”创新,在每个产品的基础上实现自定义功能,在标准芯片平台中通过创新功能区分产品 SKU。这之所以成为可能,是因为 Efinix 的突破性效率为主流市场带来了高性能。
图 3:比较各种流行 FPGA 解决方案的关键 FPGA 参数。
Titanium 系列规格的框图(图 4)显示高密度计算架构与 DSP 切片、高速 I/O 和收发器接口的集成,以满足低功耗小尺寸边缘的高性能工业自动化和嵌入式视觉应用需求。这种 LE 密度与尺寸比形成了 FPGA 应用的新范例。Efinix 设计足够小且功能强大,可以替代传统的FPGA,这些 FPGA 太小而无法容纳完整的设计,因此只用作桥接芯片,以及曾经粘合在一起的小型 FPGA 的定制芯片。
图 4:Titanium FPGA 规格。
Efinix 量子结构中的动态硬件和软件分区
Efinix FPGA 设计流程还采用了现在熟悉的开发方法,即最大程度地用软件设计系统并仅在需要提高性能的地方使用硬件。开源和软件定义的 RISC-V处理器可以在FPGA内部免费实例化。为设计者提供了加速器的直观抽象,以添加小块硬件来加速C/C++代码。在同一个可配置结构中,可以进行动态硬件和软件分区,以获得最终性能和效率,加快上市时间并降低开发成本。
RISC-V指令集体系结构从加州大学伯克利分校(UC Berkeley)发展到现在,已经有了巨大的发展。作为RISC-V计划的直接结果,现在有一组丰富的开源软核。因此,它已成为AI供应商越来越喜欢的芯片体系结构,无论从商业技术巨头或者到美国军方,都在与流行的Arm和x86体系结构竞争。与许多开源软件/硬件平台一样,RISC-V的这一新兴生态系统已促进更高效安全的设计。这降低了工程师进入市场的障碍,他们能够实例化最接近特定应用程序需求的RISC-V实现,并相应地进行配置。设计人员可以在处理器上开发C代码,当速度不可避免地太慢时,可以轻松地将任何瓶颈迁移到FPGA中,直到达到所需的系统性能。如果没有FPGA平台,这种直接的硬件加速是很难实现的——即使在现场部署设备后,用户仍然可以使用FPGA平台。
结论
更小的工艺几何使得芯片开发及生产变得非常昂贵。然而,集成度的提高会提高开发的复杂性和成本。复杂性的增加增加了设计时间和费用。由于这些因素,从集成电路批量生产中获得的利润率正在下降。首先,竞争的加剧让消费者有了更多的选择,从而减少了每种产品的销量。竞争的增加也缩短了产品的生命周期。新的计算密集型节点和技术必须越来越灵活,不仅要支持不断变化的市场需求,还要跟上深度学习模型的升级。在复杂度方面处于“中间道路”的人工智能应用程序中,缺乏FPGA将导致开发者依赖定制芯片或嵌入式处理器来实现硬件加速。Efinix开启的新FPGA经济模式使开发者能够在一个更便捷的环境下进行更灵活的创新。