Deprecated: Creation of dynamic property db::$querynum is deprecated in /www/wwwroot/www.ecoein.com/inc/func.php on line 1413

Deprecated: Creation of dynamic property db::$database is deprecated in /www/wwwroot/www.ecoein.com/inc/func.php on line 1414

Deprecated: Creation of dynamic property db::$Stmt is deprecated in /www/wwwroot/www.ecoein.com/inc/func.php on line 1453

Deprecated: Creation of dynamic property db::$Sql is deprecated in /www/wwwroot/www.ecoein.com/inc/func.php on line 1454
千亿通用服务器市场出现两大新变化_ld乐动综合体育平台登录
欢迎光临ld乐动综合体育平台登录官网!
全国咨询热线:17318037685
ld乐动体育登录
联系我们

ld乐动综合体育平台登录

曾经理:17318037685

Q Q:3538504606

公司地址:深圳市光明区新湖街道楼村社区红银路46号C栋202

当前位置:首页 > ld乐动体育登录

千亿通用服务器市场出现两大新变化

时间:2025-02-05 03:02:06 作者: 点击:1

  文|数智前线年初,一家互联网大公司找到浪潮信息,想解决一个业务中遇到的新问题:客户的应用场景非常多元,在实际应用中,他们发现每个场景最佳匹配的处理器平台并不同。比如,轻量级容器场景,通常对性能需求适中,但对功耗和密度要求比较高;高性能的计算场景,则更倾向于具有更强并行解决能力,有更多高频核心的处理器平台。客户提出一个诉求,我怎么在各种业务中,快速上线不同处理器的服务器?

  与这个问题几乎同时出现的是,虽然大模型的训练和推理大都由AI服务器承担,但人工智能也对通用服务器提出了新要求,比如大模型训练需要的数据存储。而通用服务器也具备了智能加速能力,可以运行大模型推理服务。从长远来看,正在快速演进的十万卡乃至百万卡智算集群,对数据中心的颠覆和重构,也牵引着通用服务器,像AI服务器那样,走向高密度部署。

  这个想法提出的一年多之后,经过产业链多方的努力,解耦思路得以落实。开放标准组织OCTC发起了开放算力模组(OCM,Open Computing Module)规范,建立了标准化算力模组,实现了一机多芯。按照规范的定义,未来一台服务器中,英特尔、AMD、ARM更多CPU平台可随意切换,还可以同时支持。这也是国内首个服务器计算模组设计标准规范。

  开放算力模组(OCM,Open Computing Module)规范启动

  浪潮信息紧锣密鼓推出了首个基于OCM架构的通用服务器——元脑NF3290G8。首代服务器支持两种CPU新品,英特尔®至强®6处理器,以及第五代AMD EPYC™ 9005系列处理器。前者在AI推理与计算、生成式AI、科学研究等场景,表现出较高的性能提升,后者则在全闪存储、高网络带宽、金融高频交易、大数据分析等场景,性能提升不错。

  而在这次系统厂商对OCM标准的产品化过程中,有三大趋势也值得业界关注:其一是解耦化;其二是产品智能化管理中,对大模型技术的引入;其三是硬件开放、软件开源的潮流。

  在第一个大趋势上,OCM采用的解耦趋势,代表了服务器系统架构的未来演进方向。从系统效率来看,系统分为通用算力、内存、异构算力等标准模块之后,提供一致性的供电、散热和调控,就可以针对不一样硬件资源,进行一定的供电、散热优化,才能实现极致的能效比。罗剑说,采用OCM标准的元脑NF3290G8,已呈现了雏形。

  为了实现解耦和模块化设计,工程师们聚焦解决了计算模块的供电、管理、对外高速互连等归一化问题。如在管理上,由于每个处理器芯片的管理接口、协议等均不同,要求管理系统BMC,要掌握各家处理器的密码本,将不同的信息翻译成明文后,进行统一管理。此前,这一技术掌握在独立BMC固件提供商(IBV)手中。而2023年,浪潮信息通过开源路线OpenBMC,掌握了固件研发的技术能力,为这次实现处理器管理的归一化,奠定了基础。

  在第二大趋势产品管理智能化上,针对通用服务器中的高故障部件,如内存和硬盘,新一代服务器平台,利用了大模型可对海量数据来进行学习训练的优势,基于浪潮信息推出的大模型源,对以往服务器的故障日志数据,进行了针对性训练,形成故障预警模型,集成到BMC管理引擎中。目前,系统实现了提前7天的故障预警,将客户的非计划停机时间缩至更短,以减少业务损失。

  在第三大趋势开源开放上,硬件的产品设计,尤其是与OCM产品化相关的设计,都在OCTC开放社区中进行贡献,让客户可获得有关的资料。在软件开源上,从OpenBMC社区而来的开源技术,帮助浪潮信息解决了解耦中的核心问题,并再次回馈给开源社区。开源开放是一个不间断地积累和汇聚技术力量的过程,最终为自身和产业链发展提供强大的支撑和动力。

  我们可以在通用服务器上看到,处理器平台的未来功耗大约在500~600瓦之间。同时,服务器中还有四个350瓦的GPU。而智能网卡已成为云业务的标配,随着带宽的攀升,它的功耗也不可以小看。这些部件的功耗加起来,整机功耗已接近3000瓦。怎么样才能解决如此大功耗的散热?罗剑透露,工程师们采用的方法之一是散热风道分离,CPU、GPU以及智能网卡,都有单独的散热通道。这让散热效率提升5%以上,对数据中心的PUE来说极为重要。

  采用OCM标准后,服务器的研发成本大幅度降低。因为解耦,减少了很多重复性的开发工作,加快了芯片从研发、测试验证到落地的速度,浪潮信息的产品研究开发周期从原来的18个月,压缩到6到8个月。另外解耦和模块化过程中,因为可靠性标准,包括信号、电源、结构、系统稳定性要求的提高,架构的改变,并未降低服务器的可靠性。

  当下,智算正在引领整个产业的演进。大模型对算力的需求,让智算算力高速攀升。依据市场调研公司的IDC的分析预测,2023年和2024年,AI服务器市场连续翻番。如在中国市场,AI服务器2023年翻倍到100亿美元;2024年又翻倍增长到近200亿美元。AI服务器即将占据整体服务器市场的半壁江山。服务器市场也因而有了一句话,市场好不好,就看AI服务器。