生成式AI算力如此紧张，怎样选择才最划算

在大咖云集的亚马逊云科技re:Invent 2023全球大会现场，大家最关注的焦点话题是什么？

对于这个问题，相信很多人都会不假思索地在第一时间给出答案——生成式AI。

然而生成式AI的应用以及大语言模型的训练，都对算力有着极高的需求。身为全球云计算开拓者和领军者，亚马逊云科技认为这意味着怎样的机遇？同时又带来了怎样的挑战？企业可以通过生成式AI实现怎样的转型升级？为了满足客户的迫切需求，亚马逊云科技又提供了怎样的解决方案？

生成式AI带来的机遇与挑战

“生成式AI带来的机遇非常明显，对吧？大家都已经有目共睹。”亚马逊云科技计算和网络副总裁David Brown向趣味科技表示，“我们希望亚马逊云科技能够成为运行这些工作负载的最佳场所，并且已经为此投入了大量资金和资源。”

David Brown指出，生成式AI的发展带来了极其广袤的市场，通过与NVIDIA等合作伙伴的携手合作，以及自研的Amazon Graviton和Amazon Trainium系列定制芯片，亚马逊云科技正在努力为客户提供更好的性价比，希望能够帮助客户以更低的成本引入和运行他们的模型。

而在挑战方面，如何帮助客户理解生成式AI，以及如何利用生成式AI为客户的业务服务，是当下生成式AI应用的难点，也是亚马逊云科技一直在努力的事情。在探索与试验的过程中，亚马逊云科技很快意识到，在Amazon Bedrock模型中为客户提供选择是正确的做法。为此亚马逊云科技在re:Invent 2023全球大会上宣布推出Amazon Bedrock更多模型选择和强大功能，让用户可轻松访问来自AI21 Labs、Anthropic、Cohere、Meta、Stability AI以及亚马逊的多种行业领先的大语言模型和其他模型，从而帮助企业更加轻松地构建适合自身业务的定制化生成式AI应用，极大地降低了生成式AI应用的门槛。

当前面临的另一项挑战，是如何确保在客户需要时提供足够的GPU算力。为此亚马逊云科技一边持续在全球范围内构建数据中心和电力足迹，一边开展了多项技术和服务创新，包括推出Capacity Blocks服务，使得即使是在供应受限的环境中，也能够帮助客户找到电源、GPU和加速器，获得GPU访问权限，从而支持他们的生成式AI工作负载。

努力为客户提供更好性价比

强大的算力自然离不开强劲的芯片。在这方面，亚马逊云科技主要是通过两种方式来实现自己的目标。

一种方式是与NVIDIA的紧密合作。亚马逊云科技与NVIDIA携手进行了大量投资，将最新的NVIDIA GPU引入亚马逊云科技。继成为全球首家提供NVIDIA GH100 Grace Hopper数据中心GPU访问的云服务商之后，NVIDIA创始人、CEO黄仁勋又在re:Invent 2023全球大会现场宣布，亚马逊云科技成为全球首家推出NVIDIA GH200 NVL32实例的云服务商。

“在数据中心运行NVIDIA GPU的工作非常具有挑战性，工程设计非常困难，需要世界上最好的供应商才能做好这些事情。”David Brown表示，“我认为在这方面，亚马逊云科技确实比其他任何公司都要出色。”

另一种方式是投资和设计自己的定制芯片。在re:Invent 2023全球大会上，亚马逊云科技就宣布其自研芯片家族推出Amazon Graviton4和Amazon Trainium2等新一代产品，为生成式AI应用和机器学习训练等广泛的工作负载提供了更高的性价比和能效。其中Graviton4较上一代产品性能提升30%，独立核心增加50%以上，内存带宽提升75%以上；Trainium2较上一代产品训练速度提升4倍，能效提升2倍，并能在EC2 UltraClusters中部署多达100,000个芯片。

“芯片是用户所有工作负载的基础，如果你是一个希望运行生成式AI工作负载的客户，你自然会选择性价比最高、对自己来说最合理的芯片。”David Brown表示，“亚马逊云科技每一代自研芯片都持续提升性价比和能效，为客户提供了基于AMD、Intel以及NVIDIA等的最新芯片和实例组合之外的更多选择，这使得Amazon EC2可以为客户虚拟运行几乎所有应用和工作负载，同时也为客户提供了更好的性价比。”

利用生成式AI助力企业转型

如今越来越多的企业都对生成式AI投入了更多的关注。如何将生成式AI技术应用到自身业务，如何实现降本增效，如何为公司带来价值，也成为了广大企业正在努力研究的课题。

“生成式AI太新了，许多客户都在努力研究如何将这一技术应用到自己的业务当中。我真正需要思考的主要是两件事。”David Brown说道。

第一件事，是企业如何利用生成式AI的能力，并想出用这些能力为最终用户构建什么？David Brown认为这是每家企业都在考虑的事情，实际上在亚马逊云科技内部，就有团队通过机器学习实验室与客户合作，帮助他们构建概念证明，以实际测试生成式AI可以为客户业务做些什么。目前在帮助客户构建生成式AI解决方案方面，亚马逊云科技已经取得了很大的成功。

第二件事，是一旦企业有了一个生成式AI解决方案，那么就必须确保公司盈亏能够负担得起它的运行成本。因为如果运行成本太高的话，企业实际上是无法实施部署的。因此亚马逊云科技所做的就是帮助客户找到成本优化的方法。无论是改进开发模型的方式，还是通过像Trainium这样的自研芯片，亚马逊云科技都希望能够真正降低生成式AI应用的成本。

在re:Invent 2023全球大会上，亚马逊云科技数据与机器学习副总裁Swami Sivasubramanian博士在主题演讲中重点介绍了亚马逊云科技推出的生成式AI技术堆栈。该堆栈包括了底层负责训练和推理的基础设施层、中间微调模型需求的工具服务层、上层构建生成式AI应用层等三个重要层级。通过对这三个层级的不断重构，亚马逊云科技能够为客户提供更具性价比和安全性的技术与服务，从而利用生成式AI更好地助力企业转型升级。

摩尔定律失效但芯片仍在进步

说起芯片，很多人都会想起英特尔创始人之一戈登·摩尔多年前提出的大名鼎鼎的“摩尔定律”，也就是集成电路芯片上可容纳的晶体管数目，大约每隔18个月便会增加一倍。

在上个世纪，摩尔定律被证明是有效的，并且着实推动了芯片市场的进步。然而近年来，由于晶体管尺寸和制造工艺的限制，摩尔定律也日益逼近极限。NVIDIA CEO黄仁勋就认为，这种蛮力增加晶体管的方法基本上已经走到了尽头，从而引发了众多业界人士有关“摩尔定律是否已死”的争论。

“摩尔定律的争论非常有趣，如果我们回到上个世纪，有时会看到英特尔工程师们在为如何让下一版CPU晶体管数量翻倍而绞尽脑汁，有时又会看到他们已经实现了晶体管翻倍，反而要为下一代产品故意做一些保留。”谈起摩尔定律的话题，David Brown如是表示，“但是令人惊讶的是，在几十年后的今天，我们似乎已经看到了摩尔定律的极限，因为现阶段物理问题的限制，我们在技术上已经无法再使CPU上的晶体管数量在短期内实现翻倍。”

David Brown指出，事实上除了增加晶体管的数量之外，还有各种各样的其他方法可以提升芯片的性能，包括改变设计芯片的方式，改变构建芯片的方式，改变为芯片提供能量的方式等等。因此即便是摩尔定律失效，也并不意味着芯片不会继续创新和提高性能。这就是Amazon Graviton和Amazon Trainium系列芯片向其他芯片制造商展示的意义所在。

生成式AI算力如此紧张，怎样选择才最划算

特别声明：文章版权归原作者所有，文章内容为作者个人观点，不代表大咖秀专栏的立场，转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)