天极大咖秀

登录 | 申请注册

亚马逊云科技“芯”动力:驱动生成式AI每一步

深度围观 2023-12-15 阅读: 3,538 次

随着科技的飞速发展,人工智能和机器学习逐渐融入我们生活的方方面面。作为全球领先的云计算公司,亚马逊云科技始终站在科技前沿,探索创新的可能性。
其中,芯片领域是亚马逊云科技多年来大力投入和重度创新的一个方向。从云端数据中心到智能家居设备,亚马逊云科技的芯片技术正为智能科技提供原动力。
随着生成式AI的崛起,当“所有行业都值得再做一遍”成为普遍的悸动,由此带来的诸如GPU短缺、算力饥渴的窘境,已不再是庙堂之高的学术讨论,而是顺理成章地成为茶余饭后的日常谈资。
芯片可以被视为现代科技进步的基石之一,芯片是工作负载的基础,机器学习训练和生成式AI应用等广泛的工作负载期待着芯片提供更高性价比和更高能效。
生成式AI与芯片可以看作是“赛车“与”引擎”。生成式AI是赛车,需要在比赛中快速、准确地完成任务,而芯片则是引擎,为赛车提供强大的动力。
没有强大的引擎,赛车难以在比赛中取得胜利。同样地,没有高性能的芯片,生成式AI在处理复杂任务时就会显得力不从心,生成式AI的性能和创造力也会受到限制。
三大“芯”动力提供强劲算力
亚马逊云科技2023 re:Invent 在美国刚刚落下帷幕,中国行城市巡展活动随即在北京开启,最新的技术和创新之花随着生成式AI的浪涌潮至即将开遍神州大地。
万众瞩目的“芯片”这一关键词无疑撩拨着千行百业的敏感神经。

亚马逊 主场空镜

亚马逊云科技2023 re:Invent中国行城市巡展活动北京开启

亚马逊云科技在2023 re:Invent大会上宣布,Amazon Graviton处理器再次升级,Amazon Graviton系列是基于Arm架构的服务器CPU,首款产品在2018年发布,近5年间一共更迭了四代。
新一代的 Amazon Graviton4 处理器提供了更高的性能和效率Amazon Graviton4与当前一代Amazon Graviton3处理器相比,性能提升高达30%,独立核心增加50%以上,内存带宽提升75%以上,为在Amazon Elastic Compute Cloud (Amazon EC2)上运行的工作负载提供最佳性能和能效。
陈晓建亚马逊1
亚马逊云科技大中华区产品部总经理陈晓建
介绍Amazon Graviton4 处理器
基于Amazon Graviton4的Amazon EC2 R8g实例目前已提供预览。
但是,有很多人会问,升级后的Amazon Graviton4毕竟是一款通用处理器,与生成式AI究竟有多大的关系?
这其实一个灵魂拷问,我们需要理解的是,Amazon Graviton4 的确并非专为生成式 AI 设计的芯片,但它作为亚马逊云科技的高性能通用处理器,对生成式 AI 应用有着积极的影响。
因为通过提高性能、优化能效以及与亚马逊云科技其他服务的紧密集成,Amazon Graviton4 处理器可以帮助推动生成式 AI 在云计算环境中的发展。
譬如,其强大的计算能力可以支持各种类型的工作负载就包括机器学习和人工智能应用。对于生成式 AI 工作负载来说,更快的计算速度意味着更短的训练时间、更快的推理响应以及更好的用户体验。
简单说,Amazon Graviton4不是一般的通用的处理器芯片,因为其诞生在亚马逊云科技大家庭中,还可以集成其他很多服务。
亘古不变的道理是:强将手下无弱兵,亚马逊云科技升级通用芯片Amazon Graviton4 与生成式 AI 的发展自然是正相关,懂的自然都懂。
相比Amazon Graviton4,Amazon Trainium2芯片则专为以高性能训练具有数万亿个参数或变量的基础模型和大语言模型而构建,它基于 NVIDIA Hopper 架构,采用 7nm 工艺制造。

陈晓建亚马逊2

    陈晓建介绍Amazon Trainium2处理器

Amazon Trainium2与Amazon Trainium芯片相比,在性能比第一代快 4 倍,比采用 X86 处理器的Amazon EC2 实例快 3 倍,这可以帮助开发人员更快地训练和部署 ML 模型。

Amazon Trainium2 的功耗比Amazon Trainium能源效率(每瓦性能)提升多达2倍,这可以帮助开发人员节省成本。

当然还有大家关心的时延指标,Amazon Trainium 2 的延迟比 Trainium 降低了 50%。这意味着,使用Amazon Trainium 2 可以提高人工智能模型的推理性能。

Amazon Trainium2 适用于图像分类、自然语言处理、机器翻译、推荐系统、生成式模型等ML工作负载,Amazon Trainium2 目前处于预览版,可在亚马逊云科技在全球范围内的所有可用区域使用。

Amazon EC2 Trn2实例采用最新的Amazon Trainium2,一个单独实例包含16个Trainium加速芯片。Amazon Trainium2实例致力于为客户在新一代EC2 UltraClusters中扩展多达100,000个并与Amazon Trainium2加速芯片,并与Amazon Elastic Fabric Adapter(EFA)PB级网络互联,提供的算力高达65 exaflops,客户可按需获得超级计算级别的性能。

总而言之,Amazon Trainium2 是一款性能强大、功耗低、成本效益高的 ML 加速器。它可以帮助开发人员更快、更高效地训练和部署 ML 模型。

亚马逊云科技与英伟达宣布了扩大合作,以共同开发和部署人工智能基础设施。

双方基于迄今为止最强大的 GPU 推出首款云AI超级计算机,结合了英伟达H200 Grace Hopper超级芯片和亚马逊云科技UltraCluster扩展功能,来加速人工智能模型的训练和推理。

该项目代号为 "Project Ceiba"。这台超级计算机配备了16384颗英伟达的H200 Grace Hopper超级芯片,能够处理65 exaflops速度等级的AI运算。这个系统是大规模的,使用了H200 NVL32与Amazon EFA互连技术。

陈晓晓亚马逊3

陈晓建介绍GH200 AI超级计算集群

该超级计算机旨在提供强大的AI基础设施和服务,以满足日益增长的高性能计算需求,特别是在机器学习和人工智能领域。

通过结合亚马逊云科技的云计算能力和英伟达在高性能计算硬件方面的专长,两家公司希望推动科学研究、工程模拟和其他对计算能力有高要求的应用。

此外,亚马逊云科技还宣布将首先提供NVIDIA GH200 Grace Hopper超级芯片作为云服务提供商,并且这些芯片将通过NVIDIA DGX Cloud与NVIDIA NVLink技术相连。这一举措将进一步加强亚马逊云科技在云端高性能计算领域的地位,并为客户提供更多选择来处理复杂的AI工作负载。

更为重要的是,通过提供云端访问,亚马逊云科技和英伟达正在降低企业和研究机构使用超级计算机的门槛,使得更多组织能够受益于这些强大的计算资源,这在当前算力成本高昂的背景下显得尤为重要。

正所谓:为技术普惠而重塑云计算。

总之,Project Ceiba不仅代表着高性能计算技术的巨大进步,还将对许多领域产生深远影响,包括科研、商业和整个社会。

 

提供软件和工具让算力更高效

光有性能爆棚的芯片,对于开发人员来说还远远不够,亚马逊云科技 提供一系列软件和工具,帮助开发人员更容易地使用亚马逊云科技的训练和推理芯片来开发生成式 AI 应用。
Amazon SageMaker 是亚马逊云科技提供的完全托管的人工智能服务,包括训练、推理、部署和管理等全流程服务,支持各种生成式 AI 模型,并提供丰富的软件开发工具包和 API。
具体来说,Amazon SageMaker 提供以下功能,可以帮助开发人员更容易地使用亚马逊云科技的训练和推理芯片来开发生成式 AI 应用:
提供各种生成式 AI 模型:Amazon SageMaker 提供各种生成式 AI 模型,包括图像生成、文本生成、音频生成和视频生成等,开发人员可以根据自己的需求选择合适的模型。
提供丰富的软件开发工具包和 APIAmazon SageMaker 提供丰富的软件开发工具包和 API,可以帮助开发人员快速构建和部署生成式 AI 应用。
支持各种训练和推理芯片:Amazon SageMaker 支持各种训练和推理芯片,包括 Amazon 的 Inferentia 和 Trainium 芯片,以及英伟达 GPU。开发人员可以根据自己的需求选择合适的芯片。
当然还不仅仅是这三项。
譬如,Amazon SageMaker提供自动调优功能可以帮助开发人员自动调整模型训练参数,以获得最佳性能。这对于生成式 AI 模型特别有用,因为这些模型通常需要大量的计算资源才能训练。
再譬如,Amazon SageMaker 模型预测功能可以帮助开发人员预测模型在不同数据集上的性能。这可以帮助开发人员选择合适的训练和推理芯片,以获得最佳的模型性能。
还有,Amazon SageMaker 还提供各种训练套件推理容器
我们再来看看为生成AI而生的Amazon Bedrock。
Amazon Bedrock是一项完全托管的服务,可通过单一 API 提供多种高性能基础模型(FM)的选择,以及构建生成式 AI 应用程序所需的一系列广泛功能,通过安全性、隐私性和负责任的人工智能简化开发。
陈晓建亚马逊9

 

陈晓建介绍Amazon Bedrock
Amazon Bedrock 提供了一个统一的API来访问多个高性能的基础模型(FM),包括来自不同公司的模型,如Amazon Titan、AI21 Labs、Anthropic、Cohere、Meta 和 StabilityAI,这使得开发者能够轻松集成不同的基础模型,并根据需要选择最适合他们应用的模型。
Amazon Bedrock是一个完全托管的服务,这意味着 亚马逊云科技负责底层基础设施的管理,包括扩展、监控、安全性和更新。这让开发人员可以专注于构建和优化他们的应用程序,而不是担心基础设施的维护问题。
Amazon Bedrock 还提供自定义功能,可帮助开发人员根据自己的需求调整 FM。开发人员可以使用微调技术来调整 FM,以适应特定的应用程序需求;开发人员可以使用检索增强生成(RAG) 技术来生成更高质量的生成内容。

 

陈晓建亚马逊8

陈晓建介绍Amazon Neuron SDK

当然还有安全合规、社区支援等亚马逊云科技传统优势,需要强调一点的是,亚马逊云科技还提供了Amazon Elastic Inference、 Amazon Greengrass、Amazon Neuron SDK ……等一系列的软件和工具来帮助开发人员快速构建和部署生成式 AI 应用,就不再一一举例了。
结    语
亚马逊云科技芯片领域的探索历程始于2013年,从整个过程来看,可以分为为了满足自身业务需求,亚马逊云科技开始涉足芯片领域,研发出第一款定制芯片Nitro,用于提升数据中心的效率的起步阶段、随着技术的积累,亚马逊云科技逐渐将芯片应用于更多场景,如智能家居、无人驾驶等,不断拓展其应用范围的进阶阶段,以及推动生成式AI每一步的跨越阶段
亚马逊云科技“芯”动力所展现出的强大实力,正是源于不断地创新精神和技术积累。作为全球领先的云计算公司,亚马逊云科技将继续以重塑、创新的姿态引领智能科技新时代。
而作为用户和消费者,也将享受到更多由亚马逊云科技“芯”动力带来的便捷、安全和智能化的生活体验。

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)