AI将重塑每个行业和场景,也将重新定义IT架构的每个层级。这是今天正在发生的改变。AIDC如雨后春笋般不断涌现就是最好的例证之一。
智算中心新挑战
作为新型的智算算力工厂,AIDC为各行各业打造新质生产力奠定了坚实基础。赛迪顾问的数据显示,截至2024年上半年,国内已经建设和正在建设之中的智算中心超过250个。专注于人工智能和大数据处理的AIDC与传统数据中心在技术重点、应用场景、能耗管理、发展趋势等诸多方面存在显著差异。
从大约20年前企业刚开始“上云”,到今天纷纷落地AI应用,安全从来都是头等大事。从华为的大量实践来看,安全可靠作为核心需求,在智算时代的重要性进一步提升。众所周知,AIDC的投资巨大,主要体现在对GPU、DPU等芯片需求的增加,以及单机柜功率的显著提升。而随着AI基础设施规模和投资的增加,导致并行计算故障域扩大,且单次回退损失增加。尤其是在万卡集群甚至十万卡集群需求快速涌现的情况下,AI基础设施面临的安全性挑战进一步加剧。
与传统算力相生相伴的就是高功耗、高排放。今天,AI带来了算力的爆炸式增长,AIDC中芯片和服务器的功率密度越来越高,对制冷和供电也提出了更严苛的要求。绿色低碳是实现算力高质量发展的关键目标之一。信通院的数据显示,截至2023年底,我国数据中心在用的810万标准机架总耗电量达到1500亿KWh,数据中心碳排放总量为0.84亿吨。面对大容量超大集群获取电力难,碳排高、能耗高,传统风冷散热无法支撑高功率密度等挑战,AIDC的绿色低碳之路任重道远。
当前,智算业务的迅猛增长加速了数据中心上线周期。市场不确定性的增加、技术的快速迭代,要求数据中心基础设施必须具备弹性演进、快速交付的能力,以便更好地降低初期投资成本,满足用户当前需求的同时,还能兼顾未来发展升级。
从满足智算发展需求的角度来说,安全可靠、绿色低碳、弹性演进是今天AIDC必须具备的基本能力,同时也是华为数据中心秉承的核心理念和创新基因所在。
智算中心供配电系统 “省”字当头
智算时代,“安全可靠”是数据中心基础设施最核心的竞争力。为什么这么说?全球数据中心标准组织Uptime的统计数据显示,从2019年到2022年,数据中心业务中断损失超过10万美元的比例,从39%上升至71%,并且会随着算力需求的扩大而成倍增加。冗余性设计是数据中心的一项基本原则,它不仅仅是为了应对突发情况,更是为了保障数据中心承载的关键业务能够持续、稳定、高效运行。
影响数据中心安全可靠的因素有很多,包括物理安全、网络安全、电力消耗以及自然灾害等。传统集中式的供配电与集中制冷方式,受外部环境因素影响,或因为设备本身的质量问题,抑或是在设计、安装和运维过程中出现问题,很可能会因为设备结构复杂且各个设备间的强关联性,从而导致故障易扩散,影响面甚广。从安全可靠的角度来说,分布式架构是高容错架构,从分布式供电到分布式制冷,各个子系统彼此完全独立,单台设备的故障不会影响其他设备的正常运行,从而实现故障域最小化,进一步提升可靠性,整体风险也更加可控。
华为倾力打造的全链深度融合的电力模块3.0,能够为大型数据中心,特别是AIDC的绿色可靠供电保驾护航,可谓安全最优解。
华为电力模块3.0
数据中心传统的供配电系统多为“攒机”方案,设备多而杂,且来自不同厂商,往往面临着功率密度低、占地空间大、供电效率低、现场安装调试复杂、安全风险大等挑战。消除上述供电系统弊端,华为电力模块3.0的创新主要实现在“四省”。
“省地”:数据中心寸土寸金,节省占地面积意味着节省投资、便于管理,实现更高的投资回报比。华为电力模块3.0通过一体化超融合设计,高度集成变压器、UPS、馈线柜等设备,实现了一列一路电,将22柜变11柜,较传统方案节可节省40%的占地空间,允许客户多部署170多个机柜。
“省电”:国际能源署预计,全球数据中心的电力消耗到2030年将占全球用电量的8%。有人说,算力的尽头是电力。很多企业已经陷入数据中心建得起却用不起的尴尬境地。数据中心传统供电方案从变压器到馈线柜,链路效率通常不高于94.5%。而华为电力模块3.0缩短了这一链路,在UPS智能在线模式下,链路效率高达97.8%,因此每年可节省近200万元电费。
“省时”:为了满足业务快速发展的需求,现在数据中心的建设周期被不断压缩。华为先进的预制模块化数据中心的建设周期可从18个月缩短至6个月。从供电方案的角度来看,传统方式需要在现场连接铜排和线缆,仅此一项就需要至少两个月才能完成。华为电力模块3.0采用预制廊桥式母排,并且在工厂完成预制和预调测,将交付时间从两个月缩短至两周。
“省心”:由于采用了模块化设计,华为电力模块3.0在5分钟内即可完成更换;并且全链路可视可管可控,通过150+温度测点,能够实时监控铜排温度;此外,基于AI温度预测,可以实现低载高温预警;同时可提前对电容、风扇等关键器件和易损件进行AI寿命预测,防患于未然,进一步增强安全性。
智算中心用锂电,距离产生“美”
近年来,随着市电供电环境日益改善,以及数据中心供电系统对冗余度、运营效率、占地空间等提出了更高需求,传统UPS配套的铅酸蓄电池重量大、占地空间大、维护费用高等弊端凸显。而锂电池因其能量密度高、重量轻、占用空间小、使用寿命长、易于监测维护、节能环保和安全可靠等绿色能源特性逐渐成为数据中心的新宠。
随着锂电池在数据中心的应用越来越广泛,其安全性也变得尤为重要。本月,全球相继发生了几起影响重大的因锂电池热失控造成的数据中心事故。9月10日,某云服务商位于新加坡的数据中心由于起火而导致业务长时间中断。有新闻报道披露,火灾是由于锂电池热失控所致,且在起火50多个小时后,业务仍未恢复。这也提醒数据中心用户,数据中心锂电方案一方面需要采用更安全可靠的锂电池;另一方面,随着数据中心的单柜密度、GPU卡不断增加,为保护好算力核心资产,应采用锂电池隔离式储能,即锂电拉远是更优的部署方案。
华为室外电力模块FusionPower9000
华为室外电力模块就非常适合锂电拉远部署场景,它采用全预制模块化设计,高度集成UPS、锂电、空调、配电等部件,可以最大化算力空间。华为室外电力模块的优势主要体现在以下四个方面:第一,具备快速交付能力,通过工程产品化和产品模块化,现场即接即用,TTM从24周缩短至18周;第二,可实现弹性扩容,基于架构全解耦,实现了一箱一路电和室外部署,供电不占用建筑空间,并且支持分期建设和按需扩容;第三,安全可靠,由于采用了高可靠、高防护箱体,并且严控标准化生产工艺及质检,因此确保了高品质交付,所见即所得;第四,能够实现高效运维,其全链路可视可管可控,并且具备铜排节点温度预测、开关自动分级整定和开关健康度评估等功能。同时,华为的SmartLi方案,通过从电芯-模组-Pack-机柜-系统5级10层防护,确保了产品安全。总之,产品安全+环境安全(拉远部署)+运维安全,让数据中心能够稳定运行。
风液融合,灵活应对智算时代业务变化
随着智算中心芯片和服务器密度持续提升,散热成为一大难题。液冷技术由于散热介质比热容大、制冷效率高,正逐渐为更多智算中心所采用。市场调查机构Omdia的数据显示,2023年全球数据中心冷却市场的规模达到76.7亿美元。国家发展改革委、工业和信息化部、国家能源局和国家数据局联合发布的《数据中心绿色低碳发展专项行动计划》,强调了数据中心绿色低碳发展的重要性,旨在通过推动节能降碳改造,实现“十四五”能耗强度降低的约束性指标。
出于成本、运维安全性等多方面考虑,许多智算中心使用了风冷与液冷结合的制冷方式。但是,智算业务往往存在不确定性,租户和业务的变更让机房对冷量的需求也是不确定的。面对这种不确定性,华为创新推出了风液融合方案,即“分布式风冷(EHU或风墙)+CDU”,不仅有效解决了智算中心的散热问题,还能进一步降低成本。
归纳来说,华为风液融合方案具有以下四大优势:极简——采用模块化设计,支持分钟级热插拔维护;绿色——支持高水温,一次侧供回水35℃/43℃,二次侧供回水40℃/50℃,可有效降低制冷系统能耗;智能——采用iCooling@AI实现能效调优;可靠——基于连续制冷架构,主备电源切换时制冷系统零中断,满载THDi<10%,还可实现分钟级补液,以及秒级快速重启。
智算时代,高密高算力的需求加速了液冷的应用普及。但是不可否认,现阶段液冷产业链成熟度低、成本高、可靠性待验证,而且大多数数据中心会同时存在通用算力与智算场景,因此风液融合方案才是智算场景下最优的制冷方案。华为风液融合方案通过风冷+液冷的组合以及比例可调,打造了极简架构、极致可靠的制冷系统,可灵活适应不同服务器的制冷需求。
创新赋能 引领智算中心发展
工业和信息化部发布的《新型数据中心发展三年行动计划(2021-2023年)》,旨在推进新型数据中心的构建与发展。而新型数据中心就是以5G、工业互联网、云计算、人工智能等应用需求为引导,采用绿色低碳技术,提供高效算力服务,并具有高算力、高能效和高安全等特征。
在通用算力快速走向智能算力的浪潮下,数据中心基础设施如何才能最大程度满足智算的需求?就像华为从实践中总结的那样,新一代智算中心应该具备安全可靠、融合极简、绿色低碳的特征,并且可以全面充分地利用AI技术为数据中心的建设和运维赋能。从供电到制冷,从安全可靠到降本增效,华为在电力模块领域的创新,再加上华为的平台能力、全栈协同和创新实践,将继续引领智算中心的建设与发展。