存储系统如何支持大模型生成式AI

2023-08-09 10:21:33 互联网

冬瓜哥上次学习AI和ML，还是在2019年初。当时其实是卷积神经网络和深度神经网络蓬勃发展期，其主要目的是分类识别。当时冬瓜哥还做了一个4小时的视频，那真是我见过的最小白的白也能轻松入门，理清楚最基本的名词概念关系的视频了，没有之一。那时候利用AI生成一些艺术作品已经初见雏形，但是非常不成熟，基本上都是仅供娱乐。我记得曾经至少有两部科幻电影描述过（比如《机械公敌》，《Finch》），也许做梦对于一个机器人来讲，是一种超级进化的开端。

生成式AI，AI2.0

时过境迁。短短几年内，新的不同于传统分类器的模型Transformer，让AI再一次革新。以往的RNN在自然语言处理训练方面的并行度不是很好，需要太多通信，处理长句子时效率比较低。而Transformer模型从新的维度上解决了这个问题，高并行度让GPU训练效率大幅提升。这个过程，感觉像极了当年分布式系统兴起的时候，大家也是拿着几篇经典论文翻来覆去的研读，然后开始用开源软件，最后逐渐发展出自己的技术。

当AI突破了人类语言这道关卡，后续就有点一马平川的感觉了。因为人类知识目前主要储存在各种语言文本当中。再结合对图片、声音等各种信息的数字化映射和分析，让AI能够运行于多模态模式下，能够更好的理解字里行间的信息，更精细化的生成对应的内容，走进了现实。

多模态生成式AI（AI Generated Content，AIGC）是指通过生成和分析多种模态的数据，如文本、图像、音频、视频等，以实现更加丰富和精准的智能应用。与传统机器学习方法相比，多模态生成式AI能够充分利用多种数据之间的关联性，提高模型的泛化能力和鲁棒性。生产式AI是人工智能从1.0时代进入2.0时代的重要标志，其具备强大的认知智能，在搜索引擎、艺术创作、影音游戏、文本生成、语音生成、图片生成、视频生成、代码生成、虚拟人生成以及金融、教育、医疗、工业等领域有着广阔的应用前景。

Gartner预测，到2023年将有20%的内容被AIGC所创建；到2025 年人工智能生成数据占比将达到10%。据分析师预测，到2032年，生成式人工智能市场规模将达到2,000亿美元，占据人工智能支出总额的约20%，显著高出当前的5%。换言之，未来十年市场规模可能每两年就会翻一番。

生成式AI的背后是基于行业上下游对数据进行采集、标注、训练、推理、归档，其特征是数据量大、多元数据类型复杂、服务协议多样、性能要求苛刻、要求服务持续在线。由于多模态数据具有复杂性和多样性，因此多模态生成式AI需要具备以下特点：

• 跨模态数据融合：能够将不同模态的数据进行有效的融合，以提取更丰富的信息。
• 跨语言理解：能够理解不同语言之间的语义差异，提高跨语言应用的准确性。
• 上下文感知：能够根据上下文信息进行智能推断和预测，提高应用的场景适应能力。
• 知识表示：能够将知识和信息进行有效的表示，以支持更高级别的认知和决策。

革新带来的新挑战，现有存储系统还能不能打？

多模态生成式AI系统本身是一个大规模集群，无论是集中式存储还是本地直连存储，都早已无法满足该系统对存储性能和容量的基本需求。另外，以机械硬盘构建的任何存储系统，也根本无法承担生成式AI对存储系统带宽和时延的要求。总的来讲，生成式AI在存储方面所面临的挑战如下：

大型数据集：随着数据和模型规模的增长，独立存储无法满足应用需求。因此，解决这些问题的分布式存储解决方案势在必行。

历史数据的完整归档：在某些场景下，AI集群每天都会产生大量新的数据集，必须将其归档为历史数据。这在自动驾驶领域尤为重要，道路测试车辆收集的数据（例如雷达和摄像头数据）对于公司来说是非常有价值的资产。在这些情况下，独立存储被证明是不够的，因此分布式存储成为必要的考虑因素。

小文件和非结构化数据过多：传统分布式文件系统难以管理大量小文件，导致元数据存储负担过重。这对于视觉模型来说尤其成问题。为了解决这个问题，需要一个针对小文件存储进行优化的分布式存储系统。这样既保证了上层训练任务的高效进行，又保证了海量小文件的轻松管理。

云训练数据I/O效率低：云模型训练往往采用对象存储作为存储计算分离架构的底层存储。然而，对象存储较差的读写性能可能会导致训练过程中出现严重的瓶颈。

异构数据的融合：生成式AI训练模型的数据呈现来源多、格式多的多源异构现状，传统存储面向单一数据类型设计，需要以搬移数据的方式实现多协议访问，存储成为应用平台的关键瓶颈。

持续的低延迟与高带宽：模型训练过程中，频繁的从数据集取Token，每个Token一般4字节，实时高并发小IO性能需要极低的延迟；存储模型Checkpoint时，为Checkpoint数据可快速写入，需要高带宽。

EB级大容量存储需求：越多的数据投喂结果越精准的工作原理，决定了大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征，随着模型参数和数据量的快速增长，对于存储的大容量和扩展需求也迫在眉睫。

数据存储产业需要进行全方位的技术升级，通过在多源异构融合、数据高速传输、海量数据管理等方面持续创新，打造专业的生成式AI存储产品与解决方案。

块，文件，对象，哪种存储方式最好？

块存储

传统观点认为，低延迟高带宽场景，使用块存储是最佳方案。然而，块存储在可扩展性方面却不能令人满意。AI集群必须在数据量、数据类型、决策速度，当然还有预算方面进行平衡。AI训练环境对实时运行的基于网络的推荐引擎提出了不同的要求。块存储传统上非常适合高吞吐量和高I/O工作负载，其中低延迟非常重要，然而，随着现代数据分析工作负载（包括人工智能、机器学习甚至数据湖）的出现，人们发现传统的基于块的平台缺乏满足这些平台计算方面所产生的横向扩展需求的能力。因此，必须采用基于文件和对象的方法来支持这些现代工作负载。

文件和对象

因此，系统架构师更倾向于基于文件或对象的 AI 和 ML 存储。对象存储在构建时考虑到了 PB 级大容量，并且是按规模构建的，还支持物联网 (IoT) 等应用。对象存储在性能方面落后于块存储系统，尽管随着更新的高性能对象技术的出现，差距正在缩小。另外一个需要考虑的因素是，AI应用程序支持的存储访问接口各不相同，并非所有人工智能、机器学习或分析工具都支持 AWS 的 S3 接口（对象的事实标准）。

云储存

云存储主要是基于对象的，但为人工智能和机器学习项目提供了其他优势。其中最主要的是灵活性和较低的前期成本。云存储的主要缺点是延迟和潜在的数据传输成本。云存储对于基于云的人工智能和机器学习系统来说是一个不错的选择，对于长期数据归档来说还是划算的。

综上，传统观点认为，没有单一选项可以满足人工智能、机器学习和分析的所有存储需求。然而这个观点在浪潮信息AS13000这个老牌分布式存储系统面前就显得有点过于武断了。

浪潮信息生成式AI存储解决方案

浪潮信息生成式AI存储解决方案用一套AS13000融合存储支撑生成式AI的全阶段应用，提供全闪、混闪、带库、光盘四种介质，支持文件、对象、大数据、视频、块协议，可满足大容量、多协议共享，百万以上IOPS，100GB以上带宽，冷数据的长期保存和归档。结合AIGC数据处理的五个阶段：数据采集、数据准备、数据训练、数据推理和数据归档，由同一套存储提供端到端的数据流支持流程，满足面向文本、音频、图像、视频、代码以及多模态和全模态的模型需求。

浪潮信息生成式AI存储解决方案拥有极致融合、极致性能、极致节能，和热温冷冰四级全生命周期存储管理四大特点，助力AIGC突破海量数据存力瓶颈，加速释放数据的AI价值：

极致融合。为了应对不同模态的多样性需求，浪潮信息提出协议融合设计理念，一个集群内支持多个存储池，一个存储池内支持文本、图片、音频、视频等多种类型数据存储，一份数据又可以被前端不同业务场景以文件、对象、大数据以及视频的存储方式进行并行访问。用一套存储实现多模态场景应用，应用间数据实现实时共享，同时节省了大量的存储空间。

极致性能。AIGC场景数据类型多样化，文件大小不一数量多，且读写频繁，对存储系统的100GB级带宽、100万级IOPS需求成了常态。浪潮信息在软件方面，通过数控分离架构减少东西向数据量的转发，通过GDS、RMDA技术缩短I/O路径，通过SPDK、缓存零拷贝技术减少I/O路径上的数据拷贝，以及基于自研NVMe SSD开发的盘控协同技术，减少I/O访问SSD盘的次数，使存储性能得到进一步释放。在硬件方面，优化IO路径通道，均衡IO路径，最大化发挥硬件性能，全闪单节点带宽超过50GB/s，IOPS超过50万；创新性的引入双控全闪节点，带宽超过100GB/s，IOPS超过100万，真正使系统达到了TB级带宽、千万级IOPS、EB级带宽。

极致节能。浪潮信息最新发布的G7硬件平台，存储专用的液冷服务器涵盖性能型和容量型，且均采用模块化冷板组件设计模式。在系统方案层面，浪潮信息具有风液式，液液式等完善的端到端解决方案，能够为用户全方位打造液冷数据中心交钥匙工程，并且完成了业界首次液冷整机柜批量交付，实现PUE<1.1。

端到端的全生命周期管理。浪潮生成式AI存储方案采用闪存、磁盘、磁带、光盘四种介质提供热温冷冰四种存储资源，且实现了资源的互通和数据全生命周期的管理。基于数据的热度识别，自动释放在线存储空间，可以将海量数据自动归档到光盘库，降低长期存储成本；实现冷数据的分钟级快速回调，满足0~4级应用的存储需求。四种介质、四类存储节点，提供热温冷冰自动流转，满足各类应用的灵活配置需求，通过性能型、均衡型、容量型、高密容量型四种机型的按需灵活配置，进一步降低整体投入。

浪潮信息自研的源大模型

目前，浪潮信息生成式AI存储解决方案已经在全球领先的中文语言大模型"源1.0"中成功落地。"源"中文语言大模型有近2500亿个模型参数，算力消耗达4000+PetaFlop/s-day，底层采用AS13000并行存储支撑，原始数据、经过粗筛和精筛的处理后得到高质量中文数据都集中在AS13000上。

模型训练过程中对存储的挑战主要有对小文件并发的性能，和训练过程中要求快速保存Checkpoint存档文件的高速宽写入要求。AS13000采用最新硬件平台，搭载全闪SSD和高速IB网络，支撑源的训练过程高效完成。

据测算，GPT-3使用10000块GPU、花了30天训练完成1750亿参数，"源1.0"在2128个GPU集群上跑了16天完成了训练，源1.0的算力效率达到44.8%，远超MT-NLG与GPT-3等国际知名模型，其中存储的极致性能功不可没。

某AI独角兽公司

该公司计划发布5000亿参数量的NLP语言类大模型，为了极致的提升计算效率，采用了计算网络和存储网络分离的设计，计算网络采用高速IB、存储网络选择了RoCE，并对于存储提出了明确要求：不小于3.5PB的高速存储，性能要求带宽300GB，IOPS 350万以上。客户从专业性、开发成本、周期及运维等方面进行全面评估后，选择浪潮信息AS13000分布式全闪存储集群，支持高性能RocE组网和GPU直通存储功能，为算力集群提供高性能低延时的数据读取保障。同时随着业务的上线，进行了两次在线存储扩容，具有非常好的灵活性和容量性能线性扩展能力。

随着AIGC时代的到来，浪潮信息作为最早布局AIGC大模型的企业之一，持续围绕"新存储之道"的理念，持续打造平台型存储产品，应对智能时代、AIGC时代的存储挑战。