2023年,AI大模型掀起的新一轮人工智能应用热潮,加剧了AI算力的供不应求。广发证券分析预测,国内AI大模型在训练与推理阶段或产生相当于1.1万台至3.8万台高端AI服务器的算力需求,对应126亿元至434亿元增量AI算力市场规模。
解决算力缺口需要双管齐下。最显而易见的是硬件瓶颈,在算力供给不足的情况下,需求暴涨进一步提升了算力投入成本。另一条路径则是通过软件平台提升算力平台效率。如何让每一块AI芯片发挥更大的算力效能,不是砸钱堆硬件可以解决,而是一个复杂的系统工程,关系到每一家想要用好大模型的企业的投入产出比。
不久前,在2023全球人工智能产品应用博览会上,一款让AI大模型开发与部署降本增效的软件平台拿下了智博会“产品金奖”,它就是浪潮信息智能业务生产创新平台AIStation。AIStation的获奖,体现出算力平台效率已经受到AI产业界的重点关注。
大模型赛道,算力平台效率成新挑战
根据科技部新一代人工智能发展研究中心发布的《中国人工智能大模型地图研究报告》,我国研发的大模型数量排名全球第二,截止目前国内已发布79个10亿参数以上大模型。“百模大战”推动下,对算力的需求远远超过算力增长速度。
大模型对算力的消耗非常惊人。根据Wikipedia的数据,GPT-3的计算需求约为3640 PetaFlop/s-day, 约等于64个A100 GPU训练1年时间。这就让大规模算力的灵活使用、高效调度成为大模型训练的基本要求。
大模型的算力基础设施是一个包含计算、网络、存储、框架等在内的系统性分布式训练环境。网络、存储、计算每一项基础资源的使用效率,都影响着算力平台的效率,进而影响到大模型整体的训练进度和部署效率。
在计算层面,多元异构芯片的统一调度和高效管理是首要问题。目前市面已经有近一百种AI算力的芯片,不同的AI应用场景对算力的需求不尽相同。比如,AI训练需要使用精度低的16位浮点计算,AI推理则适合使用INT8或者INT4精度。此外,庞大的算力节点规模还会带来算力使用效率衰减的问题。
在存储层面,大模型训练所需的海量数据对存力提出更高的要求,大模型需要大量的数据预处理和准备工作,这些都让企业面临严峻的数据处理和加速挑战。
在网络层面,大模型训练和推理往往需要成千上万颗GPU芯片,如何把海量GPU连接起来形成超级计算集群,对网络规模、网络带宽、网络通信优化都提出更高要求。
以往针对算力平台效率,传统模式往往采用针对计算、存储、网络的分散化管理,不仅效率低,而且缺少针对性优化的整体调度系统,导致大规模计算平台的整体协同性较差,训练算力效率低。
为了提升AI算力平台的效率,早在2019年浪潮信息就发布了AIStation,主打的就是一站式AI算力资源调度管理。通过对计算资源、数据资源、深度学习软件栈资源进行统一管理,AIStation能有效提升大规模AI算力集群的可用性和表现性能。
在大模型时代,AIStation的价值更加凸显。算力效率直接影响到大模型训练时长以及算力消耗成本,因此更高效的算力资源管理平台,不仅可以帮企业节省成本,更重要的是可以更快将模型应用落地,抢占市场先机。
AIStation如何让大模型更易用更高效
那么,AIStation对算力平台效率的实际价值如何?
目前,包括千亿参数大模型、大型商业银行、枢纽智算中心、前沿科技企业都已成功验证了AIStation的效果。
比如,2457亿参数的“源”大模型就是借助AIStation完成高效训练的。据公开资料表明,GPT-3大模型在其V100 GPU集群上的训练算力效率为21.3%,而在AIStation的加持下,浪潮信息“源1.0”的训练算力效率则达到了44.8%。
在某大型商业银行,AIStation帮助完成底层算力资源统一调度,将AI模型训练周期由1周下降为1个工作日,支持AI业务场景快速上线。AIStation还助力智能驾驶企业纵目科技将模型训练的算力资源利用率由70%提升至90%,模型训练效率提升了35%,加速了智能驾驶应用创新。
这些成绩背后,离不开AIStation的三大优势:
第一, 一站式管理,秒级构建训练环境
在多元异构算力方面,AIStation可以支持30多款国内外最顶尖的AI芯片,涵盖CPU、GPU、FPGA以及更广泛的AIPU芯片。针对大模型底层的异构算力集群,AIStation实现了统一池化管理,而且通过自研分布式任务自适应系统,实现了训练底层的计算、存储、网络环境自动化配置。通过多种资源高效管理和调度策略,AIStation能实现万卡集群的毫秒级调度,提升整体资源利用率到70%以上。
同时,AIStation集成主流的大模型训练框架,依托容器化技术支持秒级构建运行环境,从而简化大模型训练前大量的环境配置、依赖库适配和超参数调整工作,让开发者将时间精力集中在最重要的模型开发训练环节。
第二,优化计算、存储、网络效能瓶颈,保障大模型训练的健壮性与稳定性
AIStation通过镜像分发加速、数据缓存加速、网络拓扑调度、资源动态弹性伸缩的等特性,在大模型训练过程中提升算力平台整体效率。
在数据瓶颈方面,AIStation的数据缓存机制可以避免训练数据重复下载,让模型训练效率获得200%-300%的提升。通过网络拓扑优化与分布式通信优化的结合,大模型的分布式训练线性加速比高达0.9,有效抑制多节点协同的性能损耗。
第三,训练推理一体化,算力资源弹性伸缩
AIStation可打通大模型训练和推理的全流程,并按需响应大模型实际应用中的调用突发性。其可根据业务变化实时调配算力资源,实现秒级服务扩缩容,支持百万级高并发的大规模AI推理服务场景,服务响应平均延迟低于1ms。
基础设施加速大模型普惠
AI时代,算力、算法、数据各个层面都将涌现出一大批基础设施,大模型就是其中之一。
英伟达CEO黄仁勋曾表示,大模型正在降低应用开发门槛,所有应用都值得用大模型重做一次。大模型时代,所有企业都在思考如何让大模型能力为我所用。
正如,电力时代不是所有企业都需要自建发电厂一样,只有少数技术、资金实力雄厚的企业需要研发基础大模型,数量更广泛的企业则可以依托基础大模型结合具体场景进行微调,开发丰富的行业大模型、细分场景大模型,加快AI在各行各业的落地创新。
在加速大模型普惠的道路上,相比网络、存储、计算等硬件资源,高质量的软件平台同样重要,尤其是软件的工程化、易用性、完备性都是影响大模型训练与落地的关键。目前,通过系统性软硬一体优化的平台与软件栈能力加速大模型落地已经成为行业共识,各大人工智能企业都在强化围绕大模型的软件平台能力。
在AI基础设施方面,浪潮信息AIStation在调度多元算力、提升算力效能、降低大模型开发应用门槛方面,已经探索出不少成功实践。而且,AIStation并非孤军奋战,通过与其他AI基础设施的融合打通,正在为国内AI开发者提供完善的AI开发生态。比如AIStation与作为算法基础设施的“源”大模型、作为算力基础设施的智算中心、开放的元脑生态伙伴能力相结合,将为国内AI产业创新提供坚实底座。
大模型时代,算力效率已经成为决定企业创新效率的关键。相信未来将涌现出越来越多AIStation这样的一站式创新平台,进一步释放大模型的应用价值,加速大模型落地千行百业。
打造良好的大模型产业生态,未来浪潮信息将通过更多的方式提供与承载大模型能力,推动与迎接大模型新时代。
END
本文为「智能进化论」原创作品。