天极大咖秀

登录 | 申请注册

从亚马逊云科技 re:Invent,看AI时代的“硬科技”之争

于洪涛 2024-12-05 阅读: 675 次

当今社会,无论国家与国家之间的竞争,还是企业与企业之间的竞争,“硬科技”都成为大家普遍关注的对象。

这些硬科技也被称为“根技术”。在亚马逊云科技 re:Invent 2024的主题演讲中,亚马逊云科技高级副总裁Peter DeSantis也将其称为主根“Taproot”,为亚马逊云科技数百种云服务、成千上万个功能与特性提供基础支撑。

随着AI时代的到来,人们似乎正在把关注重点向应用端迁移,但底层技术仍然是科技大厂最主要的投资领域,尤其是在数据中心“三件套”方面——计算、存储、网络。

 

AI计算:基于客户需求,“定制”训练芯片

生成式AI的出现,使得GPU的受重视程度超过了CPU,其中包括被用于进行大模型训练和推理的芯片。

亚马逊云科技自研AI芯片的历史,可以追溯到2019年。那一年,亚马逊云科技发布了第一个推理芯片Inferentia;2022年,又推出第一个训练芯片Trainium。

作为对标NVIDIA的产品,Trainium在H200供不应求的时候,自然会成为客户训练大模型的重要选择。当然,作为NVIDIA最大的客户之一,亚马逊云科技仍然在提供NVIDIA GPU的计算实例。其中,基于NVIDIA最新 Blackwell芯片的P6系列实例即将推出。

目前,亚马逊云科技最新的训练芯片是Trainium2。在re:Invent2024上,亚马逊云科技正式推出了基于Trainium2的EC2实例。相比基于NVIDIA芯片的实例,Amazon EC2 Trn2实例的性价比高出30-40%。

T2 CHIP

利用Trainium2,Anthropic构建了全球最大的机器学习计算集群,用于训练Claude系列大模型。Anthropic联合创始人兼首席计算官Tom Brown介绍说,Anthropic为此推出了一个叫做Rainer的项目,集成几十万个Trainium2芯片。

此外,苹果公司也在使用亚马逊云科技的Graviton3、Inferentia2、Trainium2等芯片,来构建Apple Intelligence等AI服务。

亚马逊云科技 CEO Matt Garman介绍说,亚马逊云科技下一代训练芯片将是Trainium3,预计明年推出。这将是亚马逊云科技首款采用3纳米制程工艺的芯片,相比Trainium2性能提升一倍,能耗降低40%。

Amazon Trainium3将会是为下一代生成式AI工作负载“定制”(Purpose-Built)的芯片。实际上,亚马逊云科技一直在强调,其包括芯片在内的产品和服务,都是根据客户需求、根据主要工作负载来优化的。

 

通用计算:不仅“够用”,还要“最优”

亚马逊云科技的通用计算CPU产品,是对标英特尔、AMD的,具有更长的发展历史,始于2018年。Peter DeSantis介绍说,目前亚马逊云科技新增CPU负载的50%,运行在Graviton之上,相当于2019年的所有计算负载。

目前,其最新的CPU芯片是Graviton4。作为一个ARM芯片,Graviton4在节省能耗的同时,性能也有了明显提升,能够满足苛刻的企业工作负载的需求。

12

值得注意的是,这些产品和服务的开发,是按照“构建单元”(building blocks)的理念来进行的。

Matt Garman说,在创立之初,亚马逊云科技看到很多其他公司采用的是大一统的捆绑式解决方案方式,但这只能做到“够用”,而亚马逊云科技期望能够做到“最优”。为此,亚马逊云科技将几乎所有的产品和技术,都拆分为独立的组件,即“构建单元”。

通过这样的方式,亚马逊云科技进行了产品服务的细分,然后根据客户需求来组合成解决方案。以计算为例,Amazon EC2拥有850种不同的实例类型,跨越126个不同的系列。

 

数据存储:企业不用再做“选择题”

生成式AI也再次提升了数据的重要性,尤其是非结构数据的数量猛增,朝着PB甚至EB级别方向发展。

Matt Garman介绍说,十年前,亚马逊云科技客户中存储数据超过1 PB的还不到100个;如今这一数量增加到几千个,甚至还有几个客户存储的数据超过了1 EB

我们可以分对象存储和数据库两个部分来看数据存储方面的“硬科技”。

S3是亚马逊云科技的第一款服务。目前,其拥有几十种类别和功能,满足从实时应用到长期归档、不同安全特性、不同管理模式的存储需求,具有高度的灵活性和适应性。

在re:Invent2024上,亚马逊云科技发布了全新的对象存储类别Amazon S3 Tables和Amazon S3 Metadata元数据。Amazon S3 Tables是专为Iceberg设计的,以应对快速增长的数据湖需求。Amazon S3 Metadata,则可以自动从对象中提取元数据,并实时存储在新的S3 Tables桶中,以支持后续使用分析工具进行元数据查询。

在数据库方面,亚马逊云科技同样拥有超过10种不同的产品。其中分布式关系型数据库Amazon Aurora已经推出10周年了。在这10年里,Amazon Aurora一直是亚马逊云科技增长最快的服务,目前的客户量达到几十万。

Matt Garman还宣布推出Amazon Aurora DSQL。它表示,有了Amazon Aurora DSQL,客户不需要再做“选择题”,可以既拥有低延迟,还拥有5个9的高可用性,同时更拥有强一致性。

在非关系型数据库方面,亚马逊云科技此次发布了Amazon DynamoDB global tables的多区域强一致性功能。

 

网络:让超级AI计算“不再难”

在AI时代,网络的意义超出了数据通信本身,虽然其受关注程度并不高。尤其是在庞大的AI计算集群中,如何充分发挥算力的价值,网络连接是关键。

Peter DeSantis表示,相比云网络,AI网络对性能提出了更高的要求。为此,亚马逊云科技开发了面向大规模AI集群的网络架构——“10p10u网络”。它具有大规模并行和高密度互连的特点,能够为数以千计的计算节点之间提供数十PB/s的网络带宽,延迟低于10微秒。

此次,亚马逊云科技还发布了全新的网络互连技术NeuronLink。它能够将多台Trainium服务器组合成逻辑上的单一服务器,连接带宽可达2TB/s的带宽,而延迟仅为1微秒。

正是有了“10p10u网络”和NeuronLink技术的加持,亚马逊云科技推出了由64个Trainum2构成的超大AI服务器Trainium2 UltraServer。它能够提供83.2万亿次每秒浮点运算、6TB HBM高速内存、185 TB/s的HBM内存带宽,适合训练万亿级参数的AI大模型。

ULTRA SERVER

需要特别说明的是,亚马逊云科技这些根技术的创新,都是通过云服务的方式提供给客户的。相比市场上公开发售的产品,基于自研芯片、数据库、网络技术的亚马逊云科技云服务实例,能够提供更好的性价比。而高性价比,有助于降低生成式AI等的使用成本,助推相关应用的落地和普及。

亚马逊全球副总裁、亚马逊云科技大中华区总裁储瑞松表示,亚马逊云科技根技术创新的目的,是为了给客户创造价值,帮助他们降低业务创新的难度,“通过我们的创新,来帮助客户更好地创新”。

储

于洪涛
科技智库领域优质创作者

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)