在AI时代,存储不再只是数据的承载体,而是驱动智能应用的核心引擎。角色转变的同时,数据存储平台的重构也在所难免。
11月8日,在DOIT传媒主办的2024中国数据与存储峰会上,新华三集团副总裁、存储产品线总经理关天舒发表了数智聚能 重构AI时代数据存储平台的主题演讲,分享了新华三对未来存储技术发展的新趋势的观点,以及未来新华三存储产品的演进路线。
谈到数据存储领域技术创新的发展趋势,关天舒表示,从介质层面来看,SSD已经从TLC向QLC方向发展,今年有可能就是QLC的元年。闪存颗粒的密度慢慢的升高,同时SSD硬盘的设计形态也在发生明显的变化。依照EDSFF标准,这种像标尺一样的硬盘形态能够从整个存储系统的设计上实现更高的性能密度,可以在一定程度上完成更高的绿色环保。在存储的协议方面,存储系统已经从传统的SCSI协议全方面进入了NVMe的时代,随着NVMeOF的普遍应用,结合高速的RDMA的技术消除高速链路的瓶颈,闪存系统正在走向端到端的NVMe的连接。
AI智算的普遍应用,意味着GPU的工作负载慢慢的升高。为了支持存储系统和GPU更好的协同而问世的GDS技术,可以让GPU绕过CPU的处理直接访问存储系统的数据,以此来实现整个智算系统更加的高效。
“这些技术创新的方向,为未来技术的发展带来无限的想象空间。” 关天舒指出,摆在人们面前的新问题是,如何充分的发挥这些新技术带来的潜能——除了要在硬件上前瞻性地兼容这些新的技术标准,更重要的是如何在软件上做全面的优化,对总系统和算法上进行协调设计,充分的释放新的存储系统的性能。
中国信通院的多个方面数据显示,截止到今年6月底,中国智能算力的规模已达到了76EFlops,同比增长65%;在算力总规模的投资中,GPU的占比不断加大,很多企业IT开支都在向GPU倾斜,智算应用越来越普遍,成为存储系统中最重要的核心应用负载。这些智算应用带来了非结构化数据的爆发式增长,对存储系统的厂商而言,既是新的商机,也是强大的挑战。
首先是模型参数的挑战。过去两年,大模型的参数量以年均复合增长400%的速度增长,对AI算力的需求量开始上涨了15万倍,与此同时,整个智算系统中GPU的平均利用率最高只有50%,大量的GPU空耗和等待。存储系统如何以更高的性能,为智算应用提供更高效的数据供给,并提升智算系统的有效算力利用率?
其次是多样化数据的挑战。在智算应用数据的处理过程中,数据来源复杂,类型多样,而且涉及文件、对象、大数据等多种应用,需要耗费大量时间频繁进行数据拷贝和数据格式的转换。存储系统如何支持更高效的数据访问、提升模型的训练效率?
第三,智算应用对存储系统要求更为苛刻的稳定性。由于智算系统投资太高,任何中断都是投资的损失。存储系统如何支撑智算训练的稳定运行,减少重复训练带来的资源浪费?
应对上述智算应用的挑战,10月24日,新华三发布了全新的下一代高性能数据存储平台H3C UniStor Polaris X20000系列。
据悉,UniStor Polaris X20000系列采用了新华三自主研发的傲擎存储软件平台,通过在性能、融合、可用性三个方面的创新,为AI计算应用提供了高性能的数据存储平台,全面释放智算生产力的创新价值。
一次完整的模型训练通常包含数据加载、模型加载、模型训练、CheckPoint等不同阶段,不同阶段对于数据存储的性能要求各不一样,需要存储系统可提供更加复杂的异构混合负载的工作方式。
在性能层面,H3C UniStor Polaris X20000提供了独有的高性能EPC客户端,可以同时支持MPI-IO和Posix IO两种方式,以及支持并行文件系统的访问,可以让存储系统实现IO级的负载均衡,最大限度释放单个节点的性能。
同时,H3C UniStor Polaris X20000还支持智能的CPU分组,实现专核专用,避免各个应用在核间的抢占,减少核间调度,最大限度发挥单节点性能。UniStor Polaris X20000支持IO级的智能分组和流控调度,可以同时满足混合负载情况下的大IO高带宽、小IO高IOPS低时延的混合负载需求。
通过对底层存储系统架构的优化,H3C UniStor Polaris X20000单节点的性能实现了80GB带宽和200万IOPS,大幅度提升了不同的阶段数据加载效率,加上对不同训练阶段的IO模型进行单独的性能优化,共减少30%的训练等待时间,有效保证智能算力系统的算力供给。
在整个模型的训练中,同一份数据可能会被不同的应用同时访问,所以要在不同应用间去做数据的迁移和转换,这样的一个过程要占到整个数据处理的30%以上。
对此,新华三重新设计了全新的元数据的处理架构和处理流程,实现了文件、对象、大数据在存储系统中只需要保存唯一的一份原数据,就可以同时被不同的上层应用系统访问,同时还支持不同的协议、数据并行处理,做到了协议无损、性能无损。总系统架构的规划时只需规划一个统一的逻辑资源池,提升可用容量空间达40%,不仅大幅度简化后续规划配置运维工作,还可以对多样化的数据做本地分析、免数据迁移,最大化提升数据的分析效率。
在大模型的训练过程中,最令人头疼的就是各种意外的情况导致的训练中断,这会导致GPU空闲,降低利用率。
H3C UniStor Polaris X20000实现了多级可靠性方案,支持租户间的隔离,每个租户实现独有的容量策略和性能策略,保证多个租户在同时训练中不受其他某个租户训练中断的影响。H3C UniStor Polaris X20000所有组件,无论是硬件还是软件均采用了冗余的多活系统模块设计架构,形成了一套完整的多层级可靠性的方案。
相对于传统的分布式存储系统采用节点间软件的心跳探测方式,H3C UniStor Polaris X20000通过硬件级的SOM存储管理平台实现对存储节点的健康监测,此方法支持中断式的上报以及主动轮询上报等多种不同的监控方案,对故障实现毫秒级的上报,最大化保障训练的任务不间断连续运行,无论是计划内的扩容升级还是计划外的节点故障,业务都是弱感知。
AIGC文本大模型。新华三AIGC大模型团队的主要工作之一是基于行业的数据去训练垂直领域的行业模型,目前参数规模约70B,通常一个模型的训练周期在10天左右,训练过程中需要定期CheckPoint保存,以保证不正常的情况时能重新加载、连续训练。根据AIGC团队实测数据,H3C UniStor Polaris X20000将CheckPoint的保存和加载时间降低了50%以上,大幅度提升了GPU的资源利用率。
基因测序。一家客户的基因测序每天产生约10TB的非结构化数据文件。实测多个方面数据显示,应用H3C UniStor Polaris X20000后,分析处理周期可缩短57%,数据处理时间也从30小时降低到13小时。
无人驾驶。众所周知,自动驾驶每天产生的数据量庞大,研发周期也很长。按照每个客户提供的报告,每辆车每天产生60TB训练数据。采用H3C UniStor Polaris X20000后,系统平均开发迭代周期从28个月缩短至13个月,节省了一半以上的时间。
毫无疑问,H3C UniStor Polaris X20000未来将全面助力动漫渲染、气象预报、油气勘探、芯片设计、、制造仿真等更多行的AI应用,释放AI智算生产力的创新价值。
作为新华三整体智算方案最核心的底层存储组件,X20000支持傲飞算力平台的统一系统管理,面向AI的应用,可以对应用提供业务可靠、智能IO路径优化、数据全域管控、数据安全策略的功能,为AI智算基础设施提供性能强劲、兼顾可靠的数据底座。
回顾过去近20年的时间,新华三始终专注于最前沿的存储市场,从传统阵列到融合存储,从软件定义到全闪存储。
如今,AI的发展正在深刻的改变存储领域,一方面人工智能的深度应用使得存储系统变得更的智能可靠,另一方面,智算复杂异构的混合工作负载更需要存储系统提供更高效的稳定的性能。
迎合这一转变,2023年8月,新华三发布了H3C/HPE Alletra MP全局解耦NVMe智能全闪存储,借助AI in Storage理念让存储系统从应用模式中自我学习,进而进化存储资源、提升性能。如今,新华三又推出了专为智算场景设计的新新一代高性能存储H3C UniStor Polaris X20000,对AI智算数据存储平台做全面的革新。
新华三全栈智算解决方案支持大模型的全栈能力,支持从模型开发到基础设施的一站式的应用部署,支持行业数据的统一治理,通过对算力、存储、网络的协同感知,实现智算整个集群的最佳效率。
作为IT行业的领军企业,新华三存储提出了“内生智能•成就智慧存储” 的发展的策略,借助多年的行业经验结合前瞻性的技术创新,不断推动存储产品的智慧进化,为AI时代注入新的发展动力。
展望未来,关天舒表示,新华三将继续坚持研发创新发展理念,持续探索最前沿的存储技术,持续推动产品的创新,持续发展AI时代的海量数据存储。