作者:Currie Munce,美光存储部门高级技术顾问和战略专家
数据是各种现代企业的生命线,而数据存储、访问与管理策略对企业的生产力、盈利能力以及竞争力会产生显著影响。随着人工智能(AI)的兴起,各行各业都在经历变革,企业不得不重新思考如何利用数据来加速创新和增长。然而,AI训练和推理对数据管理和存储提出了独特的挑战,因为它们需要处理庞大的数据,同时要求高性能、可扩展性和高可用性。
存储系统的性能各异,受多种因素影响。在这篇博客文章中,我们将探讨影响存储系统在AI领域的表现的几大因素,并重点分析所选用的基础存储介质将如何影响这些性能因素。
AI工作负载的关键属性
AI工作负载具有数据密集和计算密集的双重特性,这意味着它们需要高速、低延迟地处理大量数据。存储在支持AI工作负载高效且有效地访问、摄取、处理和存储数据方面发挥着关键作用。典型AI工作负载对存储要求产生影响的几个关键属性包括:
·数据多样性:AI工作负载需要从多个来源访问数据,数据格式包括结构化、非结构化和半结构化,同时这些数据位于不同的位置(如本地、云端或边缘设备)。存储解决方案需要确保在不同环境和平台之间实现快速且可靠的数据访问和传输。
·数据速度:AI工作负载需要实时或近实时地处理数据。存储解决方案需要确保在数据摄取、处理和分析过程中,实现高吞吐量、低延迟,以及稳定一致的性能。
·数据量:由于AI模型越来越复杂、准确性越来越高,GPU集群计算能力不断增长,其存储解决方案也需要提供灵活且可扩展的容量和性能。
·数据可靠性和可用性:AI工作负载必须确保数据的完整性、安全性以及非常高的可用性,尤其是在与大型GPU集群相连时,这些集群不能容忍数据访问发生中断,因此相应的要求也越高。
影响存储系统性能的因素
存储系统性能并非单一指标,而是多个因素的组合,取决于数据、应用程序和数据中心基础设施的特性和要求。其中包括以下几大重要因素:
·吞吐量:从存储系统到网络或主机,以及从网络或主机到存储系统的数据传输速率。提高吞吐量可以改善系统性能,方法是增加带宽以及减少数据流中的拥塞和瓶颈。吞吐量通常受网络宽带或存储介质速度的影响。
·延迟:存储系统对读写请求的响应时间。低延迟可以改善性能,方法是减少GPU空闲时间以及提高系统对用户输入的响应能力。机械设备(如HDD)的延迟本质上要远高于固态设备(SSD)。
·可扩展性:存储系统对数据量、数据速度和数据多样性的适应能力。高可扩展性是确保存储系统能够随着业务需求和目标实现增长和演进的关键。在增加系统能够存储和管理的数据量方面,面临的严苛挑战是维持性能扩展,同时不触及瓶颈或存储设备的限制。
·复原力:存储系统在遭遇故障、错误或灾难时维护数据完整性和可用性的能力。更高的可靠性可以通过降低数据损坏、丢失以及恢复的频率和影响来提高性能。
其他存储介质
在数据中心应用中,机械硬盘(HDD)和固态硬盘(SSD)是两种主要的持久存储设备。HDD是机械设备,通过旋转的磁盘盘片(表面涂有一层磁性材料)来存储数据,而SSD通过固态闪存芯片来存储数据。几十年来,HDD一直都是主导的存储设备。HDD的每位成本很低,同时具有长期断电耐用性,但是在速度和可靠性方面不及SSD。SSD具有高吞吐量、低延迟、高可靠性,以及更密集的封装选项等特点。
随着技术的不断进步和计算需求的日益增加,HDD的机械性质确实让其在性能上无法与SDD比肩。系统设计可以采用以下几种方法来提升基于HDD的存储系统的有效性能,例如将热数据和冷数据混合存放(让热数据从冷数据中借用性能),在多个HDD磁盘中并行共享数据(提高吞吐量但不降低延迟),在HDD中预留冗余容量(本质上是针对IO进行预置,而不是增加容量),以及为延迟异常的请求或操作添加SSD缓存层。从成本效益的角度来看,这些系统级解决方案的能力只能在有限的范围内扩展。实际应用需要怎样的性能水平,这些解决方案就需要进行相应扩展,才能满足性能要求。对于目前的许多AI 工作负载而言,基于HDD的系统在性能可扩展性和功率效率方面存在不足。
基于SSD的大容量存储系统可以提供一种更为简洁且可扩展性更强的解决方案,并且它们正在迅速发展,在许多以GPU为中心的大型数据中心中,已成为高性能AI数据湖的存储介质。单从驱动器层面来看,SSD(基于每位成本)的成本要高于HDD。而从系统层面整体来看,如果考虑到以下改进,则与HDD相比,使用SSD构建的系统运营成本要低一些:
·更高的吞吐量
·延迟降低100倍以上
·每PB字节所需的服务器和机架数量更少
·可靠性更高,使用寿命更长
·在给定的性能水平下,能源效率更高
未来几年,SSD的容量有望突破120TB。随着容量的增加以及SSD与HDD之间价格差距的缩小,对于需要高于平均性能或在大数据集上需要极低延迟的其他工作负载(比如视频剪辑和医疗成像诊断)来说,这些SSD将是具有吸引力的替代方案。