从12月16日开始,时隔13年重返大荧幕的阿凡达系列电影《阿凡达:水之道》再次掀起观影狂潮,其在首个周末便赢得了4.35亿美元的全球票房,在中国上映7天总票房已经突破了5亿元。在一场精彩绝伦的视觉盛宴背后,电影的特效团队在亚马逊云科技解决方案的支持下,在8个月内完成了长达33亿渲染线程小时的云上制作,助力其打造48FPS HFR的逼真特效。
其实,渲染应用属于典型的数字内容创作高性能计算应用。从3D建模、绑定、曲面和模拟,再到动画制作和大规模渲染,这一切都离不开高性能算力。在很多人的印象中,高性能计算总是和大国重器、前沿科技重大项目等挂钩,殊不知,高性能计算如今已经渗透到各行各业丰富的应用场景中,比如新能源、新材料、生命科学、人工智能、大气科学、金融分析、文娱等。近几年,随着云计算技术的快速应用和发展,高性能计算资源的获取和应用方式也发生了重大改变。统计数据显示,2017-2021年,中国超算云服务市场规模从2.9亿元增长至20.7亿元,复合增长率达到了57.4%。
可以说,云计算为高性能计算的商业化打开了一扇新的大门。
降低门槛
在云上建超算,亚马逊云科技是这样做的。
全球领先的地理空间智能公司笛卡尔实验室(Descartes Labs)正在亚马逊云科技基础设施之上构建自己的云端超算能力。通过将云平台迁移至亚马逊云科技,笛卡尔实验室可以更加高效地存储、处理和快速分析海量的地理空间数据,包括地球表面自然环境与建筑物的位置和特征的图像,以及来自卫星和飞机的遥感和其他数据源的数据,从而帮助其客户从这些专业数据的分析中获得洞察,并及时做出决策。
2021年,笛卡尔实验室“大大地火了一把”,因为它使用AWS EC2云计算服务,执行High-Performance LINPACK(HPL)基准,达到每秒接近10 PFLOPS。这一成绩足以让它在2021年6月的TOP500超级计算机排名中跻身第41名。笛卡尔实验室利用亚马逊云科技构筑的云中的强大计算能力,游刃有余地处理日益复杂的数据集,并帮助客户预测和解决其行业特有的问题。例如,快消品公司可以使用笛卡尔实验室的平台实现建模、模拟和机器学习推理,以监控和减少森林砍伐。
最近几年,在TOP 500排行榜中,我们越来越频繁地看到云的身影。从技术的角度看,云计算能够为千行百业的客户提供更高性能的算力,特别是像亚马逊云科技所强调的那样,可以在成本和安全性不妥协的情况下,源源不断地提供高性能的算力。从应用和商业模式的角度看,超算云模式可以更好地实现集约化,降低高性能计算的入门门槛,更高效地调度和分配资源,让更多商业客户甚至中小企业也能享受到高性能的红利。
锐意创新
高性能计算顾名思义,还是要高举高打,以高取胜,这里的“高”指的是对算力本身的不懈追求。当今社会,算力是数字经济的核心生产力,其重要性毋庸置疑。那么高品质的算力究竟从哪里来?亚马逊云科技一直在努力构建云中的高性能“算力池”。
从最近几届的re:Invent大会来看,新款计算芯片及相关计算服务的发布总是能够引发现场掌声雷动。从Amazon Graviton到Amazon Trainium、Amazon Inferentia再到Amazon Nitro,亚马逊云科技每一代自研芯片都为客户的各种工作负载提供了更高的性能、更优化的成本和更高的能效。“我们不断推陈出新,让客户获得卓越的性价比,这是驱动我们持续创新的能量源泉。”亚马逊云科技Amazon EC2副总裁David Brown在re:Invent2022大会上举例说,“最新推出的Amazon EC2实例为高性能计算、网络密集型工作负载和机器学习推理工作负载提供了显著的性能提升,客户有了更多的实例选择,充分满足其特定的需求。”
自研芯片仅仅是一方面,围绕着高性能计算丰富的应用场景,亚马逊云科技还能做得更多,比如今年刚刚推出的完全托管的计算服务Amazon SimSpace Weaver,它可以基于亚马逊云科技的高性能算力,帮助客户构建、操作和运行大规模的空间模拟仿真系统。
模拟仿真是高性能计算的又一大典型应用场景。亚马逊首席技术官Werner Vogels表示:“今天,模拟技术得到了越来越广泛的应用,比如用于制造更好的赛车,预测天气或模拟股票市场。而Amazon SimSpace Weaver就是铺平未来道路的众多模拟技术中的第一个。借助模拟,我们可以通过运行大量假设的场景来评估我们的行为对未来的影响,而无需等待多年。”
基于Amazon SimSpace Weaver,客户可以部署空间模拟应用,对具有多个数据点的动态系统进行建模,比如一座城市的交通状况、场馆内流动的人群,或是整个工厂车间的布局等,模拟可视化的物理空间,运行沉浸式的训练模型,以获得不同情景下的关键指标,并基于此做出明智的决策。
Amazon SimSpace Weaver的威力到底有多大?客户可以使用它模拟出100万个以上、实时交互的仿真对象,创建比以往时候更加复杂的环境,并且可以将模拟仿真系统部署的时间从数年缩短至数月。一旦客户准备开始部署其模拟仿真系统,Amazon SimSpace Weaver便会自动启动运行环境,将多达10个高可用、低延迟的Amazon EC2实例连接到网络集群中,跨实例分发模拟仿真应用。一句话,Amazon SimSpace Weaver能够让客户轻松实现复杂的、沉浸式的3D体验,并对大规模场景进行测试和可视化。
在模拟仿真这一领域,亚马逊云科技拥有大量成功案例,Lockheed Martin就是典型的一例。Lockheed Martin是一家全球安全和航空航天公司,主要从事先进技术系统、产品和服务的研究、设计、开发、制造、集成和维护。出于工作的需要,他们必须模拟现实世界的规模,以确保从仿真系统中获得的数据与现实世界的结果一致。过去,由于模拟大型场景需要极长的时间,所以实际中仅能支持少数用户同时与模拟系统互动。但在与亚马逊云科技合作开发了一个用于美国旧金山地震恢复的演示样例后,令人惊叹和欣喜的变化出现了,Lockheed Martin公司能够在大洲范围内近乎实时地模拟超过100万个对象,这无疑提供了洞察现实世界的能力,同时也提升了公司在包括自然灾害在内的各种场景下的提前准备和规划的能力。
综上,在云中,客户不仅能够获得所需的算力,而且能够更加方便、快捷、低成本地获得高性能算力,将不可能变成可能。
追求极致
高性能计算的“高”,并不是盲目地性能堆叠。虽然都属于高性能计算,但应用场景的不同,更看重计算还是更重数据的细微差别,往往就是决定一个项目能否成功的胜负手。
亚马逊云科技CEO Adam Selipsky在re:Invent2022大会的主题演讲中分享了一个故事,19世纪初,两名探险家——罗伯特·斯科特 (Robert F. Scott)和罗尔德·阿蒙森 (Roald Amundsen)谁第一个抵达南极洲的竞争,最终胜负的关键居然是因为燃料罐盖子的密封问题。从中获得启示,在极端条件下看似很小的差异,可能也会产生难以置信的影响。当面对极端环境时,“足够好”往往意味着还不够好。在高性能计算方面,亚马逊云科技要做的就是逼近极限:一方面,要提供极致的算力;另一方面,要对症下药,精准满足客户的差异化计算需求。
亚马逊云科技基于新发布的芯片推出了面向不同工作负载的全新高性能计算实例,以帮助高性能计算客户更好地应对不同的工作负载,包括计算密集型负载、计算和网络密集型负载、数据和内存密集型负载等。
亚马逊云科技CEO Adam Selipsky宣布推出高性能计算实例
Amazon EC2 HPC7g实例采用了最新发布的Amazon Graviton3E芯片,提供了更多的网络功能,拥有更高的内存带宽和200Gbps的EFA弹性结构适配器网络。在性能方面,与当前一代C6gn实例相比,浮点性能提高了两倍;与当前一代Hpc6a实例相比,性能提高了20%,具有超高性价比。全球性企业Arup(奥雅纳)使用亚马逊云科技的服务来运行高度复杂的模拟,帮助客户建造下一代高层建筑、体育场馆、数据中心和关键基础设施等。Arup期待借助更高性能的Amazon EC2 HPC7g实例,对可能影响人们生活的城市微气候、全球气候变化等进行评估并提供洞察,从而助力客户实现更快、更有效的创新。
为了适配更多网络密集型工作负载需求,亚马逊云科技还推出了新的Amazon Graviton 3E实例类型C7gn。相比C7g实例,C7gn实例为要求更为严苛的网络密集型工作负载而设计,包含网络虚拟设备(防火墙、虚拟路由器、负载均衡器等)、数据分析和紧密耦合的集群计算作业场景。C7gn同样支持高达200Gbps的网络带宽,并将数据包处理性能提高了50%。
Amazon EC2 HPC6id实例基于Amazon Nitro系统构建,旨在为数据和内存密集型高性能计算工作负载提供领先的性价比。它具有更高的每核内存带宽、更快的本地SSD存储,以及带有弹性结构适配器的增强网络。HPC6id实例提供了200Gbps弹性结构适配器网络,用于高吞吐量节点间通信,使客户的高性能计算工作负载能够大规模运行。
Amazon HPC6a实例是此前就已推出的计算密集型实例,它搭载了主频高达3.6 GHz频率的第三代AMD EPYC处理器,并提供384 GB内存,能够广泛用于天气预报、流体动力学计算、金融期权定价等领域,与基于x86架构的实例相比,其性价比高出65%。在Amazon EC2 HPC6实例的助力下,地理空间智慧公司Maxar能够加速数值天气预报工作负载的研究和运营,支持其Maxar Precision3D 产品套件创建先进和精确的数字孪生模型。
面对不同的高性能计算场景,亚马逊云科技能够提供基于x86、AMD和自研ARM芯片的不同的高性能计算实例,满足客户的个性化需求。正如Adam Selipsky所说,今天,云的规模正在重新定义高性能计算,它带来的应用和创新改变了游戏规则。如果没有针对每个特定工作负载优化的一系列实例,就无法为高性能计算创建具有成本效益的性能基础,而高性能计算的极端规模意味着即使看似很小的资源差异也可能对性能、成本和运行速度产生重大影响。亚马逊云科技正逼近云上高性能计算的极限。