天极大咖秀

登录 | 申请注册

面对AIGC时代的算力挑战,亚马逊云科技的应对之道

智能进化论 2023-07-19 阅读: 8,551 次

生成式AI发展的瓶颈在算力,已经成为越来越多企业的共识。

根据IDC联合多方发布的《2022-2023全球计算力指数评估报告》,全球 AI 计算市场规模将从 2022 年的 195.0 亿美元增长到 2026 年的 346.6 亿美元,其中生成式 AI 计算市场规模将从 2022 年的 8.2 亿美元增长到 2026 年的 109.9 亿美元。

生成式AI的算力挑战不仅体现在硬件和资金投入力度,而是一个软硬件协同的系统工程。作为生成式AI的底层基础设施,云计算在破解算力挑战方面有着先天的优势。在不久前的中国峰会上,亚马逊云科技向外界分享了其应对算力挑战的策略。

各行各业都在争抢AI算力

生成式AI正在为各行各业带来巨大变革。亚马逊全球副总裁、亚马逊云科技大中华区执行董事张文翊认为,生成式AI将从四个方面为企业带来价值:创造全新的客户体验、提高企业内部员工的生产力、帮助企业提升业务运营效率、以及提升企业在内容创作方面的效率。

正是由于生成式AI应用维度的广泛性和普适性,不少机构预测,各行各业未来数年间运用生成式AI的比例都将大幅提升,由此导致对AI算力需求的井喷。

比如在营销领域,Gartner预计到2025年,大型企业机构对外营销信息中的合成信息比例将从2022年的不到2%上升到30%。

在游戏行业,AIGC可以用于游戏开发中的角色生成、场景设计和任务生成等场景。根据Market.us发布的《生成式AI游戏市场》调查显示,生成式AI在全球游戏市场的规模将以23.3%的复合年增长率增长,到2032年将带来71亿美元的增量收入。

在制造行业,到2027 年,30%的制造商将使用生成式AI 提高产品研发的效率。

亚马逊云科技大中华区产品部总经理陈晓建认为,生成式AI导致的算力需求井喷呈现三个特点:

首先,企业需要更高性价比的软硬件解决方案以应对算力资源紧缺。

第二, 云服务需要提供快速高效的弹性资源供给,以应对生成式AI的迅速发展和快速变化的业务需求。

第三, 云服务需要进一步降低使用门槛,让客户能快速上手。

应对算力挑战的三大抓手

针对这一轮各行业对AI算力需求的痛点,亚马逊云科技从三大维度,自研芯片创新、弹性的计算存储组合以及Serverless架构,帮助客户简化运维,以更高性价比满足多样算力需求。

第一, 聚焦自研芯片,通过全面深入的基础设施能力,打造算力“加速器”。

芯片性能和高质量训练既是生成式AI爆发的基础。亚马逊云科技的算力基础设施中,不仅涵盖来自Intel、AMD、英伟达等品牌顶尖的芯片产品,其自研芯片体系也在日益完善和壮大。目前,已经形成了Nitro、Graviton、Trainium和Inferentia在内的完整产品线。

Nitro是云服务器虚拟化引擎,通过硬件虚拟化,可将物理服务器的系统资源占用降低至不到1%,并实现了网络和存储在硬件级别的隔离机制,最大限度保证用户数据通信的安全。

在AI芯片方面,亚马逊云科技不断加速训练芯片Trainium和推理芯片Inferentia的迭代,以满足企业对大模型高效训练与推理的需求。

比如,基于Trainium的Trn1实例和通用的GPU实例对比,在训练的吞吐率上面,单节点的吞吐率可以提升1.2倍,而多节点集群的吞吐率可以提升1.5倍。基于增强型Trn1n实例的网络带宽跃升至1.6Tbps,可将万余个Trainium芯片构建在一个超大规模集群上,实现对超大模型进行并行训练。

推理芯片Inferentia目前已经进化到第二代,适合大规模部署复杂的模型,例如大型语言模型(LLM)和Diffusion类模型。基于Inferentia芯片,亚马逊云科技推出了专门为大型Transformer模型分布式推理建立的实例Inf2。以Stable Diffusion 2.1的版本为例,Inf2实例可实现50%的成本节约。

第二, 通过丰富灵活的计算实例的资源,满足多种不同算力的要求。

“很多客户都跟我们谈到,‘我们知道这是潜力巨大的方向,但是我们也不知道在什么时候需要多少计算资源’,这就要求云服务公司能够随时随地提供高度弹性化的资源供给。”陈晓建表示。

亚马逊云科技提供600多种不同的计算实例,企业可以按需灵活配置处理器、网络和存储等资源,满足多种不同算力的要求。

以存储为例,数据规模到达PB级别时存储方式变得非常重要,“热、温、冷、冻”不同类型的存储方式,成本和性能都有很大差别。Amazon S3对象存储提供8种存储层级,同时提供智能分层,自动选择最适合的存储层级。

第三, 针对简化算力应用,亚马逊云科技推动云服务全面迈向Serverless。

Serverless技术可以将云的弹性、敏捷性、按需付费的特性发挥到极致。目前,亚马逊云科技已经实现了全栈数据服务的Serverless化,开启了云服务全面Serverless的时代,让客户无需预置或管理基础设施,就可以运行几乎任何类型的应用程序或后端服务代码。在瞬息万变的大模型时代,Serverless也将成为越来越多企业快速应对不确定性,以最低成本进行AI技术创新的利器。

生成式AI时代,算力就是生产力,它对企业业务创新的价值从未像今天这样重要。亚马逊云科技以先进的性能、更优的性价比和全面的服务,不断降低生成式AI的算力成本和使用门槛,力图做到让生成式AI触手可及。

智能进化论
专注云计算、AI、数字化转型领域深度报道。

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)