2024开放计算中国峰会：开放激活社区，全向Scale创新加速AI发展

2024-08-12 09:15:18 互联网

关键词: 人工智能

2024开放计算中国峰会在北京举行，开放计算如何加速人工智能发展成为大会焦点话题。智能时代，大模型正在重构AI基础设施，数据中心迎来算力、网络、存储、管理、能效的全向Scale创新挑战，需构建全球化的开放协作平台，合力解决上述重大问题，通过对人工智能基础设施的全面优化，为AI发展赋予无限可能。

2024开放计算中国峰会由开放计算社区OCP及开放标准组织OCTC（中国电子工业标准化技术协会开放计算标准工作委员会）联合主办，以"开放协同：协作、智慧、创新"为主题，聚焦数据中心基础设施、人工智能创新、开放计算生态、绿色计算发展、开放系统&CXL等议题，包括百度、阿里云、中国工商银行、字节跳动、三星、浪潮信息、英伟达、伟创力、Solidigm、英特尔、世纪互联等在内的社区领袖、技术大咖、行业专家，以及千余名IT工程师和数据中心从业者参与大会。

社区激发创新活力，全球化协作平台加速AI创新

生成式人工智能的飞跃式进步正在加速智能时代的到来。在Scaling law约束下，随着大模型参数量的持续提升，计算当量与数据量亦随之激增，数据中心基础设施所面临的全方位创新，将越来越依赖于更加广泛的全球化开放协作，加速AI技术创新与应用，共同构建一个人机高度交互的智能世界。

OCP基金会理事David Ramku（Meta 数据中心基础设施高级总监）表示，"生成式人工智能的增长正在重构数据中心的生态系统，开放计算项目的全球化协作创新模式可以最大限度激发创新活力。OCP将继续投资关乎未来的战略性技术，如人工智能和机器学习、光学技术、先进的电源管理和冷却技术、Chiplets等，为应对IT生态系统的新变化做好准备。"

OCTC秘书长陈海认为："应用是中国人工智能产业的核心优势之一，理应让用户参与到人工智能的探索和应用中，从用户思维出发制定更切实落地的规范标准，以此有效降低技术获取成本，推动和加速数据中心各领域的技术创新与成果普惠，让更多的组织和个人从中获益，这是开放社区长久繁荣的核心所在。"

正因为意识到开放的力量，开放计算受到越来越多公司的支持并积极投身其中。在过去的三年中，OCP的成员数量从250多家增长至360多家，增幅接近50%，社区项目和子项目数量超过40个。与此同时，OCTC的成员数量也在一年内迅速翻倍，从40多家增长至近百家，快速构建起包含基础设施、测评与服务、运维管理等在内的标准框架，并将通用计算、柜计算、AI异构、液冷等列入标准化建设的重点内容。

AI重构数据中心基础设施

生成式人工智能正在重构数据中心基础设施，对计算效能、存储容量及性能、网络方案、资源调度管理、能效控制与管理各个方面均提出更高要求，全向Scale能力成为构建先进AI基础设施的核心。在本届峰会上，包括CXL技术、面向AI的网络架构、首款16通道PCIe 5.0 TLC固态硬盘等一大批创新技术与产品方案，将进一步提升人工智能基础设施的Scale能力。

百度集团副总裁侯震宇指出，在大模型时代，预计未来十年内，AI算力需求将呈现爆发式增长，并行计算成为实现大模型黄金法则Scaling Laws的最优解。AI新基建正推动产业链全面变革，展现出"极致高密、极致互联、极致规模"的重构特征。

阿里云基础设施超高速互联负责人孔阳认为，随着云计算和AI大模型应用的快速发展，计算规模呈现出数千数万倍的增长，单任务的计算量也成百上千倍的增长。但受制于芯片在算力密度、访存规模和带宽的迟滞，服务器机柜级Scale up互连成为当下技术热点，作为开放生态系统，Scale up开放生态系统ALS和CPU内存扩展的CXL技术生态已成为行业的重要方向。

中国工商银行数据中心资深经理陈庆提到，AI大模型的部署对算力底座提出新的要求，包括多算力中心互联，提供不同等级按需服务，实现网络和计算资源的统一管理和编排，同时要兼顾性能和连续运行，减少故障中断，并通过空间分割部署不同功率密度及液冷产品，以支撑AI应用。

三星电子副总裁、先行开发团队负责人张实完表示，生成式人工智能带来数据量的激增，对存储的高容量、性能和低功耗提出前所未有的高要求。需要开发承载海量数据的存储产品，以满足AI时代对存储容量的巨大需求，为AI模型训练、大数据分析等应用提供强有力的存储支持。

浪潮信息服务器产品线总经理赵帅认为，算力迭代是Scale up与Scale out并存迭代、快速发展的过程。现阶段，开放加速模组和开放网络实现了算力的Scale，开放固件解决方案实现了管理的Scale，开放标准和开放生态实现了基础设施的Scale，未来要以开放创新加速算力系统全向scale，应对大模型Scaling Law。

字节跳动资深网络架构师霍朋飞表示，大模型训练、推理等AI业务需求快速迭代，对网络带来新挑战。超大规模GPU的协同训练对网络底座的规模、性能、成本提出高要求。开放、软硬协同、端网融合的网络架构，已成为高性能高稳定互联的基石。

英伟达网络高级总监宋庆春认为，数据中心走向了AI工厂和AI云两个新型的应用场景，超大规模分布式并行计算成为新型应用场景的关键特征，网络成为了决定数据中心性能的核心。支持高带宽、低延迟、零Jitter、网络数字孪生、网络计算、动态路由、应用性能隔离等技术的新型AI网络应需而生。AI网络将AI数据中心的算力性能提升到了极致，将会极大保护用户的投资。

开放算力模组规范（OCM）立项，推动"一切计算皆AI"

生成式人工智能的快速发展，带来了更加丰富的智能应用场景，而智能应用的繁荣必然使得推理需要更多的算力来支撑，通用算力作为一种更加普遍且更易获得的算力，一旦拥有AI计算的能力显然会大大加速智能化进程。但目前x86、ARM、RISC-V等不同架构的CPU协议标准不统一，导致硬件开发、固件适配、部件测试等耗时巨大，同时为了更好的适合AI推理高并行的计算特点，CPU总线互联带宽、内存带宽及容量也需要特别优化，使得系统功耗、总线速率、电流密度不断提升……多种因素叠加之下，算力系统的设计与开发周期漫长且成本高昂。

在CPU多元化发展的趋势下，如何快速完成CPU到计算系统的创新，使其能够适用于AI推理负载，已经成为缓解当前AI算力稀缺、推动人工智能发展的关键环节。

为此，会上开放算力模组规范(OCM)正式立项，首批成员包括中国电子技术标准化研究院、百度、浪潮信息、英特尔、AMD、小红书、联想、超聚变等，以CPU、内存为核心构建最小算力单元，兼容x86、ARM等多架构芯片的多代处理器，方便用户根据应用场景灵活、快速组合。OCM开放标准的制定，能够为用户提供更多通用性强、绿色高效、安全可靠的算力选择。

值得关注的是，OCP首次设立了开放计算最佳创新奖、开放计算最佳实践奖和开放计算生态贡献奖，以此表彰在上述领域做出卓越贡献的社区成员。首届开放计算最佳创新奖由阿里云、三星和村田获得，百度和字节跳动获得开放计算最佳实践奖，浪潮信息和安谋科技获得开放计算生态贡献奖。

此外，大会还发布了开放计算十大创新成果，包括超大规模数据中心部署指南、Evenstar开放式5G平台、液冷式人工智能加速卡设计技术要求等等，进一步体现出开放计算在数据中心领域所具备的创新活力。随着社区活力的激发、跨社区合作的增多、标准与规范的持续完善，创新的边界将得到进一步拓展，开放计算将为AI创新赋予无限可能，推动人工智能更加深刻地重构数据中心生态。