上线不到两个月,ChatGPT 的全球活跃用户就轻松突破了一亿大关。撰写论文,制定提案,创作内容,编写代码…… 只有你想不到的,没有 ChatGPT 办不成的。
在 ChatGPT 连续创造纪录的同时,人工智能自动生成内容其他相关形式也呈现指数级发展,AI Generated Content (AIGC) 迎来了发展浪潮。我们需要探索的问题是,AIGC 行业应该如何发展?
AIGC 产业生态加速形成与发展,走向模型即服务的未来,目前应用主要三大层,分别为基础层、中间层、应用层。
这些都离不开预训练大模型的支持,大模型就意味着更高计算资源以及高效的平台进行训练和推理。
未来,AIGC 并不是只用于聊天、绘画,必然会在大量的探索和尝试之后,转向更有价值的行业应用领域,从而对经济和社会发展产生巨大的影响力。伴随着模型的规模不断扩充,参数从数亿增加到数千亿个之多,除训练和部署这些日益复杂的机器学习模型的高成本外,强大和经济的算力支撑也是 AIGC 深入发展的必要前提。
有人做过统计,ChatGPT 需要超过1万颗 A100 GPU 提供算力支持,单次训练成本超过400万美元,每天成本超过10万美元。ChatGPT 的单次回复至少要花费1美分。在用户数达数亿之后,每年的成本支出就预计将超过50亿美元。
早在2006年,亚马逊云科技就意识到客户需要一种方法来根据需求扩展其基础设施并只为他们需要的东西付费,推出了 Amazon Elastic Compute Cloud (EC2) 实例。借助 Amazon EC2,亚马逊云科技为客户创建了专门构建的基础设施,旨在满足他们的业务需求,使他们能够专注于自己的核心业务,而不必担心 IT 基础设施。
2017年 re:Invent 全球大会上,亚马逊云科技推出了全球首个用于机器学习的集成开发环境 Amazon SageMaker,可以实现轻松构建、训练和部署高质量的机器学习模型,并将之部署到生产就绪托管环境中,大大降低了机器学习的使用门槛。
在芯片的设计和构建方面,亚马逊云科技专门用于机器学习推理及驱动的服务器芯片—Amazon Inferentia,与同类基于 GPU 的服务器相比,提供了无与伦比的性价比、更高的吞吐量和更低的延迟。
只依靠提升芯片性能,并不能满足训练模型的复杂要求。亚马逊云科技利用分布式多处理器,通过一个网络进行协同计算、协同训练。亚马逊云科技专门为云中高性能模型训练而搭建的 Trn1 实例最多可以搭载16颗专门用于机器学习训练的 Amazon Trainium 芯片,训练成本较基于 GPU 的类似实例降低了50%。
在2022 re:Invent 全球大会上,亚马逊云科技推出了一款基于 Trn1 的网络优化型实例Trn1n,进一步把网络带宽增加一倍。其强大的网络吞吐能力支持超1万个 Amazon Trainium 芯片构建在一个超大规模集群里,并在集群中进行模型的并行训练。
亚马逊云科技还推出了下一代自研推理芯片 Amazon Inferentia2,以及基于此的 Amazon EC2 Inf2实例。Inf2 实例是唯一一个专门为大型 Transformer 模型分布式推理建立的实例。与 Inf1 实例相比,新的 Inf2 实例的每瓦性能提升45%,吞吐量提升4倍,延时只有1/10,支持 GPT-3、Mask R-CNN、VIT 等超大型复杂模型,可以用单实例实现1750亿参数模型的推理。
AIGC 的发展离不开云计算技术。而云计算未来的发展方向,肯定是软硬件协同优化。对于云厂商来说,芯片和硬件只是一小部分,剩下的主要部分,都集中在软件和系统层面的创新。
在协议层面,亚马逊云科技提出了新的网络协议 SRD(Scalable Reliable Datagram),和TCP 的单路径相比采用了多路径路由,并且可以乱序传输数据包,从而达到更高的吞吐量。
在服务层面,亚马逊云科技继续加码 Serverless。Serverless 概念最早出现在2012年左右,它的核心思想就是让开发人员不需要关注服务器的物理限制和资源管理这些底层细节,而是把重点放在服务和任务本身的开发,专注于构建产品和应用,让整个开发过程更加敏捷、成本更低。
在亚马逊云科技最新的产品中,针对 Serverless 的冷启动问题推出一个名叫 Amazon Lambda SnapStart 的新功能。它在首次启动时会执行标准初始化,并且将内存和磁盘状态进行快照并缓存。当面对大量服务要进行初始化和扩展的时候,可以用 SnapStart 的快照机制实现直接启动,从而跳过初始化的过程,这样就极大提高了冷启动延时。官方数据显示,Amazon Lambda Snapshot 可以将启动延时降低90%以上。
近日,亚马逊云科技宣布与美国明星 AI 创企 Hugging Face 扩大合作,以加速构建生成式 AI 应用的大型语言模型和大型视觉模型的训练、微调和部署。
云计算客户可通过 Amazon SageMaker 程序访问 Hugging Face 的 AI 工具,针对特定用例进一步优化其模型的性能,同时降低成本。Hugging Face 正在加速开发类似 ChatGPT 的开源服务,并将使用亚马逊云平台来实现这一目标,以更加高效地优化性能、降低成本、将生成式 AI 应用投入生产。
除了 Hugging Face 外,Stability AI 也选择亚马逊云科技作为首选云提供商。通过使用SageMaker 托管的基础设施和优化库,Stability AI 能够使其模型训练具有更高韧性和性能。例如对于 GPT NeoX 等模型,Stability AI 使用 Amazon SageMaker 及其模型并行库将训练时间和成本减少58%,同时,这些优化和性能改进适用于具有数百或数千亿参数的模型。
通过在芯片、服务等方面的不断创新,亚马逊云科技帮助广大客户更深入了解和探索 AIGC在各个领域的实践,实现 AIGC 的关键趋势洞察和快速落地。