天极大咖秀

登录 | 申请注册

AI重塑云基础设施,亚马逊云科技打造AI定制版IaaS“样板房”

大数据在线 2025-04-02 阅读: 562 次

AI正在彻底重塑云基础设施。

IDC最新《2025年IDC MarketScape:全球公有云基础设施即服务(IaaS)报告》显示,AI正在通过多种方式重塑云基础设施,公有云IaaS有望继续保持快速增长,预计2025年全球IaaS的整体规模将达到1880亿美元。

那么,为什么这一轮的AI浪潮对于云基础设施变革有如此大的影响力?从全球云计算领导者亚马逊云科技的转变便能一窥究竟。IDC认为,亚马逊云科技在可扩展性方面的卓越表现、成熟的开发者社区以及对AI基础设施的积极投入,使其成为需要先进云能力的企业的首选。

AI从四个方面重塑云基础设施

传统云计算以CPU通用计算为核心,满足于各种应用的存储与计算需求。然而,随着AI大模型近年来的迅速崛起,以及智能体(AI Agent)大量涌现,AI对于AI对GPU、NPU等异构算力的依赖远超预期,并且直接驱动着云基础设施走向变革。

IDC在该报告中指出,AI正通过多种方式重塑云基础设施,主要包括四个方面:

其一、AI带来大量的异构算力需求,直接驱动着亚马逊云科技等所有云服务商对GPU、TPU和FPGA等专用硬件进行大量投资;

其二、AI相关技术正在迅速融入云基础设施日常的管理运维之中,由于云服务商的基础设施规模庞大,借助AI技术能够有效改善基础设施的运营效率和成本;

其三、AI正在推动云安全体系的升级,企业需要以AI驱动型安全工具来响应日益复杂的威胁;

其四、云服务商需要利用AI技术来对需求预测,并优化资源分配,推动开发AI驱动的服务与应用等。

与过去相比,云基础设施的确正在产生一系列的变化,AI对于云基础设施的运维、安全等影响尤为重要。那么,在生成式AI带动的这一轮AI浪潮中,AI的训练、推理乃至应用都需要庞大的算力支撑,企业在未来的数字化转型中,应该如何合理的选择基础设施?又应该如何选择合理的云服务商?

对此,IDC在报告中也给出具体建议。IDC认为,重点需要考虑部署决策的原则、AI功能的集成度以及系统可观测性相关的安全性:工作负载部署决策不能仅局限于成本考量,服务集成度、供应商服务的广度,以及对互操作性和开放标准的支持力度,均至关重要;将AI功能集成到云基础设施中也越来越成为一个关键的差异化因素;建议优先选择具备强大开箱即用安全功能,且对系统可观测性有全面方案的供应商。

亚马逊云科技领跑全球IaaS市场

回顾云计算将近二十年的发展历史,基础设施乃云服务商最为核心的竞争力之一,基础设施的覆盖范围与规模、运维管理能力、资源调度分配能力以及对于现代化应用的支持能力直接决定着云服务商提供各类云服务的质量。

作为云计算一哥,亚马逊云科技自成立以来,就极为重视基础设施的建设、迭代和演进,在基础设施覆盖的范围、以及IaaS领域涵盖的核心服务如计算、网络、安全等多个方面进行持续扩展及创新。

进入到AI时代,亚马逊云科技继续引领云基础设施的变革。今年2月份财报会议,亚马逊宣布将在2025年资本投资投入1000亿美元,其中大部分将用于亚马逊云科技AI基础设施的建设等,其金额大幅领先其他竞争对手,足以表明亚马逊云科技对于AI和云基础设施的重视。

在本次IDC报告中,亚马逊云科技也被评为“领导者”,并且在能力和战略的双维度上均为“领导者”。亚马逊云科技在服务范围方面无可匹敌,丰富的服务种类使亚马逊云科技对需要专业能力、混合基础设施或高度可扩展应用程序的企业具有吸引力。当需要最广泛的云服务组合以及经过验证的可扩展性和创新能力时,可以考虑亚马逊云科技。

仔细分析,亚马逊云科技之所以能够领跑全球IaaS市场,关键在于其基础设施的覆盖度、强大的自研芯片能力、领先的网络架构以及高标准的安全体系,从多个方面建立起业界领先的云基础设施。

首先,亚马逊云科技已经建成全球覆盖规模的基础设施遍及36个地理区域的114个可用区,后续还计划在新西兰和沙特阿拉伯等新建4个区域、12个可用区。为支持AI应用对于基础设施带来的种种挑战,亚马逊云科技持续推动数据中心创新,包括简化电气和机械设计,在冷却、机架设计和控制系统进行创新。简化的电力分配和机械系统能够实现高达99.9999%的基础设施可用性,并将可能受到电气问题影响的机架数量减少89%;更新后的冷却系统将无缝集成空气和液体冷却功能,用于支持AI超级计算解决方案,以最低的成本为客户提供最佳性能和效率。由数据和生成式AI驱动的软件能够精确预测服务器最佳部署方式,以最大化电力使用效率等。

其次,亚马逊云科技一直砸加速“自研芯片”的创新。众所周知,随着AI大模型开始进入到各行各业之中,越来越多用户需要包括推理等各类算力。如何高效、便捷、合理成本地为用户提供各种AI算力需求,就成为云服务商接下来重点角逐的领域。

亚马逊云科技的法宝是坚持“自研芯片”,推出多个系列的自研芯片,包括Amazon Nitro系统、通用处理器芯片Amazon Graviton、机器学习训练芯片Amazon Trainium和推理芯片Amazon Inferentia等一系列自研芯片。在训练方面,Amazon EC2 Trn2实例与当前基于GPU的EC2 P5e和P5en实例相比,性价比提升30-40%;单实例配备16个Trainium2芯片,可提供高达20.8 Petaflops浮点算力的性能,非常适合训练和推理高达数十亿参数的大型语言模型。

第三,AI对于计算带来变革,也驱动着网络不断突破。AI 算力如何更加高效地发挥生产价值,仅仅依靠AI芯片的简单堆砌是万万行不通,AI 计算网的重要性也与日俱增,直接决定着整个AI集群的效率。亚马逊云科技在网络集群的创新也堪称业界典范。

亚马逊云科技第二代UltraCluster网络架构,也称为"10p10u"网络,支持超过20,000个GPU协同工作,带宽达10Pb/s,延迟低于10μs(微秒),这一突破性的性能跃迁将模型训练时间缩短至少15%。同时还推出了兼具中央控制和优化及分布式的速度和弹性的SIDR(Scalable,Intent Driven Routing)全新网络路由协议。相比传统的BGP、OSPF等协议,SIDR在亚马逊云科技的10p10u网络中能在不到1秒内恢复网络,速度比传统方法快10倍,显著提升了分布式AI训练中的可靠性和实时性,确保网络在故障发生时也能保持高效运行。10p10u是亚马逊云科技有史以来扩展最快的网络,在2024年,安装了超过300万条链路。

第四,随着生成式AI崛起,安全态势也在发生深刻变化,攻击侧、防守侧乃至监管侧都在积极探索AI在安全领域的应用,甚至衍生出数据、模型和应用等一系列安全挑战。亚马逊云科技认为“安全是设计出来的”,无论是基础设施还是服务,从设计之初就应该将安全作为首要任务,并嵌入到从架构到操作的各个环节,从而为客户提供灵活、安全的云计算环境。

为此,亚马逊云科技采取的思路是在每个区域的基础设施采用同样最高安全标准进行构建和运营,所有用户均可基于同样安全的基础设施进行创新。此外,亚马逊云科技还不断使用创新技术提升基础设施的安全性,例如亚马逊云科技通过自动推理技术实现以可验证的方式提升系统的可观测性,为关键系统按预期运行提供了严格的数学保证。这些经过自动推理验证的基础设施和云服务,不仅能够提高客户云上构建的安全性,还能更快提供更高性能的代码,并最终节约成本。

综合观察,几年前有人认为云计算正在走向同质化,随着AI的崛起,AI算力需求的持续涌现,云基础设施也迎来了巨大的发展空间,这无疑为亚马逊云科技这样的厂商带来了极大的创新舞台。面向未来,随着千亿美元投资的落地,亚马逊云科技有望成为AI时代的创新高地,帮助各行各业催生新一轮创新浪潮。

大数据在线
洞悉技术趋势,聚焦产业发展

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)