科技创新从来都不是简单的线性递进,而是一个多主体参与、多要素互动的过程,其中,由技术进步和应用创新组成的“双螺旋结构”,更是被看作是科技创新的核心驱动力:技术进步为应用创新提供了基础支撑,而应用创新又反过来推动了技术进步。
云计算的发展就完美地诠释了“创新双螺旋”理论。早期,人们希望通过云计算的普及,让计算、存储等资源像水、电一样随取随用;但随着应用的深入,单纯把计算、存储等资源“池化”已经越来越无法满足实际应用需求,于是,从芯片、协议等底层技术创新入手,就成了云计算产业发展的必然趋势。
作为全球云计算的开创者和引领者,亚马逊云科技十多年来已经推出了多种定制化的芯片设计,以帮助客户运行要求更高的工作负载,包括更快的处理速度、更高的内存容量、更快的存储输入/输出(I/O)和更高的网络带宽。
就在不久前的re:Invent2022全球大会上,亚马逊云科技又推出了一系列底层技术更新,这里既包括新一代通用芯片、机器学习推理芯片、虚拟化芯片等,还对核心的底层SRD网络协议进行了创新,从而提升网络性能,这些创新不仅再一次突破技术边界,也进一步提升了云计算的性能。
突破性能极限,从定制芯片开始
20世纪初,随着航海技术的发展,人类先后达到了许多地球上此前无人到达的区域,南极点成为最后一片人类没有踏足过的处女地。为此,两名探险家罗伯特·斯科特(Robert F. Scott)和罗尔德·阿蒙森(Roald Amundsen)展开了一场危险的竞赛:争做第一个到达南极点的人。
1911年12月14日,阿蒙森率先到达南极点;33天后的1912年1月17日,斯科特也到达了南极点。在此过程中,阿蒙森携带了大量雪橇犬,效率很高;而斯科特携带的西伯利亚小马则根本适应不了南极气候,而机械雪橇也无法工作,燃料桶由于使用锡来焊接密封,锡在极冷的气温里变成了粉末状,导致成桶的汽油全部漏光。
这是亚马逊云科技CEO Adam Selipsky在re:Invent2022全球大会的主题演讲中分享的一个故事,在Adam Selipsky看来,极端条件下看似很小的差异也会产生难以置信的影响,当面对极端环境时,“足够好”往往意味着还不够好。
云计算的应用也是如此,当越来越多的客户采用亚马逊云科技的服务,云计算也逐渐逼近极限。对此,Adam Selipsky表示:“多年前,我们就意识到要突破性能极限,必须一直向下推进到芯片,从那时起,定制芯片一直是我们的一大差异化因素。”
早在十几年前,亚马逊云科技就开启了底层技术创新之路。尤其自2013年推出Amazon Nitro系统以来,亚马逊云科技就已经开发了多个自研芯片,包括五代Nitro系统、致力于为各种工作负载提升性能和优化成本的三代Graviton芯片、用于加速机器学习推理的两代Inferentia芯片,以及用于加速机器学习训练的Trainium芯片。
事实上,亚马逊云科技选择定制芯片,也是大势所趋,毕竟众多云计算上的应用,对底层芯片的要求也不尽相同,单纯凭借对现有芯片的整合、调试等,并不能使云服务的功能达到最佳。而亚马逊云科技定制芯片的推出,一方面确保了芯片的快速迭代和交付,另一方面也进一步提升了云服务的性能、效率和性价比。
顺势而为,定制芯片优势逐渐显现
在re:Invent2022全球大会上,亚马逊云科技首席技术官Werner Vogels针对2023年给出了五大技术趋势预测,其中定制芯片赫然在列。在Werner Vogels看来,2023年,定制芯片的使用将迅速增加,创新步伐也将进一步加快;工作负载利用硬件优化将带来最大化性能,同时降低能耗和成本。
在这一趋势下,亚马逊云科技也在加大对定制芯片的投入,从Graviton到Trainium、Inferentia再到Nitro,亚马逊云科技每一代自研芯片都为客户的各种工作负载提供更高的性能、更优化的成本和更高的能效。这些定制芯片在给客户带来更加卓越的性价比的同时,也在驱动着亚马逊云科技的持续创新。
如今,亚马逊云科技更是全新推出了新一代通用芯片Gravition3E,机器学习推理芯片Inferentia2,以及第五代虚拟化芯片Amazon Nitro5,并推出基于此三款复原研芯片的Amazon EC2最新实例。
其中,Amazon Graviton3E芯片是Gravtion3芯片的定制产品,针对高性能计算工作负载中常见的浮点和矢量运算进行了优化;采用了Graviton3E芯片的Hpc7g实例,与当前一代C6gn实例相比浮点性能提高了2倍,与当前一代Hpc6a实例相比性能提高了20%,让客户能够在多达数万个内核的高性能计算集群中进行复杂的计算。
采用最新机器学习加速推理芯片Inferentia2的Inf2实例,可以运行高达1750亿个参数的大型深度学习模型(如LLM、图像生成和自动语音检测),并在Amazon EC2上提供最低的单次推理成本;与当前一代Inf1实例相比可提供高达4倍的吞吐量,降低多达10倍的延迟。
Amazon Nitro5与第四代相比,拥有2倍的晶体管数量,2倍的计算性能,2倍的PCI-E带宽,同时内存访问速度提升50%;支持每秒增加60%的数据包,并减少30%的延迟,同时每瓦性能提升40%。而采用Nitro5芯片的C7gn实例,与当前一代网络优化型实例相比,为每个CPU提供了多达2倍的网络带宽,同时将每秒数据包转发性能提升50%。
从全新发布的Gravition3E、Inferentia2和Nitro5可以看出,这些芯片一方面在本身的性能上相比较上一代都有了大幅提升,另一方面也为Amazon EC2实例的高性能计算、网络密集型工作负载和机器学习推理工作负载提供了更加强大的性能支撑,从而可以满足更多客户的特定需求。
从芯片到协议,引领底层技术创新
协议对于计算机网络而言非常重要,可以说,没有协议就没有计算机网络。而在云服务中,传统网络协议在使用过程中常常会出现网络堵塞、突发流量等问题;伴随着云计算应用的深入,要更好地解决这些问题,推动底层网络协议的创新势在必行。
因此,亚马逊云科技从芯片入手提升云服务性能、效率等的同时,也在积极推动网络协议的创新。在re:Invent2022全球大会上,亚马逊云科技基于自身网络经验,对核心的底层SRD网络协议进行了创新,极大改善高性能计算常用的EFA网络接口性能、Amazon EBS块存储网络性能,以及ENA网络性能。
据了解,相比于传统的TCP单路径路由网络,SRD(Scalable Reliable Datagram,可扩展的可靠数据包)是亚马逊云科技开发的一种网络协议,专为亚马逊云科技环境中实现一致且低延迟的网络而构建,具备多路径传输、微秒级重传和Nitro芯片提供专用资源三大优势,能够显著降低网络延迟,提高网络吞吐量。
比如,SRD协议能够显著提升亚马逊云科技高性能计算实例采用的EFA网络接口的性能表现,SRD协议还能够有效改善Amazon EBS块存储性能,可减少90%的尾部延迟,并能够将吞吐量提升4倍。
不仅如此,亚马逊云科技还推出了高速虚拟网卡ENA Express。ENA Express以为Elastic Fabric Adapters提供支持的SRD协议为基础,将流量的P99延迟减少了50%,将P99.9延迟减少85%(与TCP相比),同时还将最大单流带宽从5Gbps到增加到了25Gbps,并让企业可以获得更多的每流带宽和更少的可变性。
从芯片到协议,亚马逊云科技在底层技术上的持续创新,已经给云服务带来了性能和效率等方面的巨大提升。首先,亚马逊云科技通过底层技术的创新,进一步夯实了自身在云计算领域的引领者地位,并为云计算产业的创新发展探索出一条新的路径。
其次,亚马逊云科技也通过此举,让客户能够享受到更具性价比的云服务。尤其在数字化转型逐渐进入“深水区”的今天,越来越多的企业开始拥抱云计算、拥抱云原生,而更高性能、更具性价比的云服务,无疑让这些企业可以更加从容地在云上开展业务系统的创新,进一步加速自身的数字化转型进程。