过去一年,最热的是什么?毫无疑问是AI(人工智能)。《柯林斯英语词典》直接把“AI”选为2023“年度单词”,在《咬文嚼字》发布的2023十大流行语中,“人工智能大模型”也位列其中。
但是,在AI炙手可热的时候,也出现了一些新趋势、新问题,尤其是作为AI基座的算力基础设施如何才能最大程度释放动能,值得业界关注。
AI的火爆,与技术的发展、行业的需求以及政策的重视都密不可分,而这一切都让算力需求呈现出爆炸性增长。
在技术发展上,以大模型为代表的生成式人工智能在过去一年迎来大爆发。正如中国科学院计算技术研究所研究员张云泉所说,“大模型+大算力+大数据”成为新一代人工智能发展的基本范式。相关数据预测,大模型的出现,使得2018年以来基于Transformer架构的大模型训练算力平均每年增长十倍,新的摩尔定律已经出现,即训练算力每20个月翻一番。
在行业需求上,大模型正在走向千行百业,催生各个行业走向深入的智能化转型。在2024联想创新科技大会上,联想集团董事长兼CEO杨元庆表示,混合式人工智能是人工智能触达并赋能行业的必然路径,企业大模型将对本企业的数据进行学习推理,助力企业提高生产力。Gartner的报告指出,80%的企业将在2026年使用生成式AI,2027年企业在生成式AI上的支出将是2024年的近4倍。显然,AI在行业渗透率的增强将进一步加速对算力的需求。
值得注意的是,AI以及由此产生的算力基础设施建设,也得到政策的高度重视。在今年的两会政府工作报告中,首次提出“人工智能+”。尤其是当前中国正在加快发展的新质生产力,让AI及算力更是可以大展身手。工业和信息化部发布的《算力基础设施高质量发展行动计划》明确指出,算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力基础设施向社会提供服务。可见,算力作为支撑人工智能发展的底座,就是典型的新质生产力。
一方面,是对算力的爆炸性需求,但另一方面,算力的利用率却不高,起码有三座大山困扰着算力的使用效能。
首先,是高复杂的大山,一边是千行百业的众多应用场景,另一边是丰富的算法框架和算子库,如何选择最适合自己的算力,是一大问题。
其次是低效率的大山,千卡乃至万卡集群的大背景下,频发的AI训练故障导致故障恢复时间长,以及GPU虚拟化能力弱、网络通信瓶颈大等问题,都导致AI算力的利用率低、可用性差。如Meta就曾在训练OPT-175B模型的日志中提到,几乎整个训练过程都要面对不停地重启和中断,尤其在两个星期的时间段内因为硬件、基础设施或实验稳定性问题而重新启动了40多次。
再次,是高能耗的大山。特斯拉CEO马斯克认为,未来几年内AI行业将由“缺硅”变为“缺电”。英伟达的创始人兼CEO黄仁勋近期更是表示,AI的尽头是光伏和储能,说的都是伴随AI发展所带来的高能耗挑战。
总结起来,现在算力领域的主要矛盾,已经变成了各行各业对算力的爆炸性需求与算力紧缺、利用率不高的矛盾。
如何才能翻越压在算力效能上的这三座大山?联想集团副总裁、联想中国基础设施业务群总经理陈振宽给出了联想AI基础设施聚焦的三大能力:为用户匹配经过验证优化的最佳算力;赋能用户充分利用算力、提升计算效率;以先进的液冷技术帮助用户节能增效且突破芯片散热的瓶颈。
联想集团副总裁、联想中国基础设施业务群总经理陈振宽
可以说,这三大能力,以及联想最新发布的五大创新,都是直击用户痛点,用技术创新来应对算力领域的矛盾。
尤其值得关注的是最新发布的联想万全异构智算平台,是用差异化的技术让用户获得更高效、更稳定的算力。联想万全异构智算平台,是一个能高度自动化完成AI全流程开发的平台,其下纳丰富的算力生态、上接各类场景优化的模型和AI工具集,既像是一个超级资源调度器和放大器,也承担着类似算力提效超级大脑的角色。
陈振宽这样描述联想万全异构智算平台的定位:“联想万全异构智算平台是AI 2.0时代联想中国基础设施战略框架的核心,它融合了联想的五大技术创新,是AI 2.0时代大模型训练和推理的基础设施底座。”
联想万全异构智算平台的最大突破,在算法的技术创新上。以GPU内核态虚拟化技术为例,就解决了大多数操作系统层面的GPU虚拟化算法在多租户、多容器场景下存在的问题,如无序资源抢占、等待性能开销、颗粒度过粗。“联想研究院开发了在GPU驱动层的内核态虚拟化算法,新算法可以将虚拟化造成的GPU算力损耗降到5%以下,极致情况可以降到1%以下,大幅提升GPU利用率。”陈振宽说。
分钟级AI断点续训,解决的是AI训练故障中断造成的算力可用性差的问题。常规的断点续训,是训练前备份,训练中设检查点并更新备份,故障发生后,通过诊断、隔离或解决故障,恢复时间通常需要数小时,算力浪费严重。联想的分钟级AI断点续训技术,通过多级备份策略、全面实时监控,尤其是以AI预测AI故障,可以实现故障的分钟级恢复,大幅提升了算力可用性,以千卡集群为例每月可以节省上百万元的算力费用支出。
此外,突破集群计算瓶颈的联想集合通讯库技术,可以将训练效率提升10-15%;破局算力孤岛的异构集群超级调度技术可以打开AI和HPC算力的共享之门,都能助力客户获得持续稳定的算力输出。
综合来看,联想在推动AI基础设施释放最大动能,关键在于三种“力”。
其一,是技术力。联想万全异构智算平台所蕴含的四大算法创新,彰显出其强大的技术力。联想中国基础设施业务群战略总监黄山在讲解联想集合通信库技术时提到的一个例子特别有趣,在该技术研究过程中,参考了蚁群算法。在蚂蚁群落搬运食物时,一只蚂蚁成功拿到食物后会释放行动成功的信息素,一条路径的信息素浓度越高,代表成功率越大,蚂蚁就是这样找到成功的捷径。蚁群算法就是这样产生的,并成功解决了城市旅商问题,即一名商人从一个城市出发遍历十个城市回到起点的最优路径,也对联想的集合通信库技术提供了重要参考。联想,就是这样不断对算法探索、创新。
其二,是进化力。破解算力高效利用、降低算力能耗的步伐永无止境,陈振宽透露,未来联想将挑战分钟内的断点续训,持续优化超大规模集群的通讯算法,深入研究相变式液冷技术,并布局模块化液冷数据中心。可以看到,联想的AI基础设施是持续进化的,这也意味着其将能不断刷新算力释放的高度。
其三,是生态力。2024联想创新科技大会上另一个值得关注的,是异构智算产业生态联盟的起航。这个覆盖AI芯片层、AI设备与系统层和AI平台与应用层,涵盖IaaS平台、AI训练与推理、行业场景解决方案的生态联盟,无疑将能汇聚基础设施上下游企业、学术界和研究机构的力量,整合资源,提高产业竞争力,促进行业规范化发展。
这一切,都是联想让算力高效利用、释放最大动能的关键所在。
值得注意的是,伴随联想万全异构智算平台的发布,联想在基础设施上“一横五纵”的战略布局非常清晰。
在今年2月举行的MWC2024上,联想执行副总裁、中国区总裁刘军首次公布联想“一横五纵”的AI导向的基础设施布局。具体来说,“一横”即联想万全异构智算平台,“五纵”就是服务器、存储、数据网络、软件及超融合以及边缘基础设施产品和方案。
陈振宽说,作为联想“全栈AI”战略布局的中坚力量,联想中国基础设施业务正以“一横五纵”战略框架,通过构建布局完整、稳定高效的AI导向的基础设施,为企业智能化转型打造坚实可靠的智算底座。
可以看到,联想的“一横五纵”战略布局共同组成了联想AI基础设施的核心竞争力。陈振宽在接受采访时表示:“联想AI基础设施的五大产品,将基于AI进行升级和重构,同时,联想将五大产品融为一体,通过联想万全异构计算平台实现全面融合。”
因此,正是这“一横五纵”的战略布局,让联想给出了AI时代基础设施成就坚实底座的“万全之策”。
中国科学院院士陈润生,在评价AI发展时,用到了一个词:“范式”:“人工智能的发展,尤其是大模型,为我们提供了一种新的范式。”
“范式”一词,是托马斯·库恩在《科学革命的结构》中第一次提出的概念,指的是某一领域重大思维方式的变革。人类历史上的每一次重大变革,都是“范式革命”的产物。
AI要想真正引发范式革命,作为基座的算力基础设施能否释放出最大价值是关键。站在这个角度审视联想推出的万全异构智算平台以及异构智算产业生态联盟,就知其重要意义。
可以说,站在40岁的特殊时点,联想这个公司又一次迎来了AI这个范式革命所提供的历史性机遇,无论是在智能终端领域的AI PC,还是基础设施领域的AI基础设施,都是如此。
之所以这样,是因为机会总是留给有准备的人或者企业。拿基础设施来说,联想之所以站在了AI领域的最前沿,至少是因为三点:
首先,是经验足。就像刘军所说,早在本地计算和存储为主的时期,联想就推出了第一台IA架构的PC服务器,开创国产PC服务器新纪元,而在互联网催生通用算力和科学计算算力需求迸发的时代,联想成为中国算力领军企业。丰富的经验,让联想可以承前启后,有机会在大模型为代表的AI时代持续引领。
其次,是布局全。在基础设施领域,联想构建起“一横五纵”的完整业务布局,尤其是此次发布的万全异构智算平台这“一纵”,更是AI基础设施的点睛之笔,软硬兼施,让AI基础设施蜕变。
然后,就是洞察深。联想此次发布的AI基础设施领域的五大创新,无一不是洞察客户痛点,用技术创新的结果。这些创新,最终实现的结果,就是把复杂留给技术、把简单留给客户,一切都只为客户可以将AI基础设施的价值发挥到最大化,更好地支撑起AI、大模型等的发展。
“人工智能技术给我们带来的新时代是百花齐放,百舸争流的时代,也将是英雄辈出的时代。联想将持续投入,坚持创新,持续升级万全之力,为英雄助力,成就英雄。加速中国智能化转型,释放社会进步新动能。” 陈振宽这样说。
人工智能已成为我国加快发展新质生产力的核心驱动力。可以预计,当AI基础设施坚如磐石,人工智能将能更快地走入千行百业以及千家万户,更好地迸发新质生产力。