作为生成式AI应用创新的基石,计算、存储、网络等基础设施需要适应生成式AI带来的全新需求与挑战。近年来,全球云计算巨头亚马逊云科技一直致力从性能、可靠性和低成本三个维度发力,构建面向人工智能时代的新型基础设施,从而满足广大云计算用户对于生成式AI创新的新需求。
在最新举办的2024 re:Invent 全球大会上,亚马逊云科技发布了包括Amazon EC2 Trn2 UltraServers、Amazon Trainium3 训练芯片计划等一系列重磅消息。其中,亚马逊云科技与Anthropic 合作构建一个基于Trn2 UltraServers 的 EC2 集群,包含数十万个Trainium2 芯片,并允许 Anthropic 构建和部署其未来的模型。
正如亚马逊云科技高级副总裁 Peter Desantis所言,跟以往相比,人工智能是完全不同的工作负载;基础设施是生成式AI应用成功构建的关键。
基础设施是生成式AI成功的关键
事实上,在Scaling Law规则的驱动下,AI大模型近年来的参数规模、数据集大小均在迅速增加,万亿级参数规模的大模型在未来指日可待。
然而,生成式AI应用的背后,离不开强大的基础设施做支撑,动辄千卡、万卡规模的计算集群、规模庞大的海量数据处理以及高效的数据传输网络缺一不可,这也对基础设施带来一系列全新挑战。如今,为解决人工智能带来的基础设施挑战,产业界正在对基础设施领域投入巨资以寻求更好的创新。
Peter Desantis直言,与过往Web服务、大数据应用等横向扩展型应用相比,人工智能属于纵向扩展型应用。在Peter Desantis看来,大模型在训练时候需要分割数据和并行处理,需要计算集群所有服务器不断共享和组合其模型的权重,如果仅仅通过靠不断增加服务器数量的方式,可能会让服务器协同时间比数据处理时间大的多,以至于持续增加服务器数量并不会让模型训练速度更快,相反却会让成本急剧上升。
那么,破解人工智能给计算等基础设施核心挑战的关键在哪里?Peter Desantis认为核心有两个:其一、构建更大规模的模型首先需要构建更加强大的服务器;其二,尽管支撑大模型的基础设施在横向扩展上存在局限,但构建大集群依然有很大的价值,需要做好横向扩展的工具。
这也意味着面向人工智能时代的先进基础设施,首先需要在AI服务器层面将更多计算和内存资源装入尽可能小的空间之中,从而更加快速、高效处理数据,另外就是在集群层面能够充分让数据的传输、协同、处理更加高效。
因此,亚马逊云科技充分利用在基础设施、自研芯片等领域的深厚积累,在本次re:Invent大会上发布基于Trainium2构建的最强大AI服务器--Amazon EC2 Trn2 UltraServers,为用户生成式AI带来兼具性能、可靠性和低成本的基础设施服务。
性能怪兽:Trn2 UltraServers
Amazon EC2 Trn2 UltraServers配备 64 个互连的 Trainium2 芯片,其计算峰值可达 83.2 petaflops;单个Trn2实例则配备 16 个 Trainium2 芯片、1.5 TB HBM 内存,可提供 20.8 petaflops 峰值计算能力。不得不承认,Amazon EC2 Trn2 UltraServers就像一台为人工智能而生的“性能怪兽”,可为最苛刻的 AI 和 ML 工作负载提供卓越的性能。
在Peter Desantis看来,AI基础设施的突破需要解决如何获得尽可能多计算和内存资源、如何提供更好地性能、如何确保AI芯片的稳定性。为此,亚马逊云科技的Trainium2实现多个突破,使得训练和部署规模越来越大的 AI大模型成为可能。
首先,亚马逊云科技在Trainium2采用最先进的封装技术和最先进的制程工艺,从而封装进多个AI芯片,获得更多的计算和内存资源;与此同时,亚马逊云科技封装尺寸和电压调节等工程挑战,将电压调节器重新放置在更靠近芯片的位置,不仅减少功耗,确保了芯片互联具备足够的稳定性。
其次,Trainium2属于加速器,但采用了不同于CPU或者GPU的脉动阵列架构。众所周知,针对人工智能应用,CPU或者GPU架构或多或少都存在一些不足,而Trainium2的脉动阵列架构从设计之初即专门为人工智能代码基础的张量计算而设计,并避免内存访问和计算单元之间的频繁操作,减少内存带宽压力和优化计算资源,可以充分发挥AI服务器计算和内存资源。
Amazon Bedrock降低延迟的新功能加持下,Trn2实例在测试中表现惊人。以在Bedorck中使用 Llama 405B(Meta的具有 4050 亿个参数模型)进行推理为例,与其他厂商的AI平台相比,处理请求和生成响应的总时间最多可缩短三倍以上,性能优势明显。
第三,亚马逊云科技在Amazon EC2 Trn2 UltraServers引入Neuron Link 技术,将多台Trainium2服务器组合成一台逻辑服务器,可实现2TB/s 带宽,且延迟仅为 1 微秒,并且AI服务器以直接访问彼此内存,实现无缝内存共享。
“为了满足计算资源最密集型工作负载的需求,亚马逊云科技还在网络层推出基于10p10u 网络的UltraCluster 2.0 。10p10u能够以仅 10 微秒的延迟提供 10 PB 带宽,以支持人工智能训练和科学计算等对于延迟和带宽的极致需求。”Peter Desantis介绍道。
事实上,Amazon EC2 Trn2 UltraServers并非停留“纸面”上的强大,而是在。亚马逊云科技正与大模型独角兽Anthropic共同开发Project Rainer,以支撑起模型的训练。Anthropic是目前与OpenAI 比肩的AI企业,AI当红炸子鸡,其 Claude系列大模型获得市场广泛好评,并且在今年多项大模型评测中击败OpenAI。
除此之外,亚马逊云科技还在液冷、机架设计、控制系统进行创新,以更好地适配生成式AI等对于能源、部署和管理的需求。
“在人工智能领域,用户通常第一天就希望获得最好的基础设施,这也是亚马逊云科技致力于的目标。”Peter Desantis如是说。
值得期待的Trainium3
如今,越来越多用户成为Trainium的使用者。
例如,苹果公司已经在使用 Trainium 实例来支持自己的模型、编写工具、Siri 改进和其他附加功能,并且在Trainium2的早期评估阶段中获得训练效率50%的提升。
除了Amazon EC2 Trn2 UltraServers,亚马逊云科技还在大会上透露了 Trainium3的计划。据悉,Trainium3将是首款采用三纳米工艺制造的亚马逊云科技芯片,在能效、性能密度上再上一个台阶,会比当前的 Trainium2 芯片高出两倍的性能和 40% 的能效。
综合观察,云是生成式AI当之无愧的基础设施首选之地。随着越来越多用户拥抱生成式AI,对于AI基础设施的需求也在不断提升,而亚马逊云科技通过Amazon EC2 Trn2 UltraServers等一系列新品,正在带来性能、可靠性和低成本三者兼得的AI基础设施服务,让更多用户可以获得更多选择。