数字经济时代,算力基础设施乃经济发展、产业升级和企业转型的根基所在。
在中国,打造“新质生产力”、推动经济高质量发展乃全社会共同目标,算力产业加速发展成为必然。一方面,国产AI芯片迅速成长,呈现出百花齐放的状态,并在部分场景中经受过考验;另一方面,“百模大战”的盛况推动了中国大模型技术、产品突飞猛进,“人工智能+”势在必行,AI算力需求也随之水涨船高。
因此,如何让算力、大模型和AI应用之间更好地适配,打通“人工智能+”任督二脉,真正推动人工智能在垂直行业落地和算力产业高质量发展,就成为当前算力产业必须攻克的难题。
值得关注的是,在近期举办的2024 中国算力大会上,一系列算力领域成果的颁布,让产业界看到巨大希望。
这其中,超聚变AI Space大模型加速引擎就是突出代表。AI Space大模型加速引擎为企业AI业务落地提供端到端的产品和服务,旨在解决当前大模型迁移、训练、以及推理应用落地过程中的诸多难点,成功入围本届算力大会“创新先锋案例”,获得产业界的高度认可。
对于中国各大行业的企业而言,“大模型”已然成为打造“新质生产力”和推动“人工智能+”落地的重要抓手。可以预见,来几年生成式AI等大模型技术在政务、金融、制造、能源等行业的渗透率会明显提升。
显然,在外部环境日趋复杂、市场充满各种不确定性的趋势下,自主大模型+自主算力是我国算力产业重要组成部分,也是未来发展中一支最为确定的力量。
不过,大模型是一项极为复杂的工程化项目,涉及到基础设施、大模型、应用等诸多方面,从“可用”到“好用”更是需要不断努力和持续优化。当前在我国,大模型已正式开启进入到垂直行业,在大模型的落地中普遍遇到如下挑战:
首先,我国自主大模型和AI芯片等领域均处于快速发展的阶段,在产品力方面取得长足进步,带来繁荣的产业生态之余,也让产品兼容性差、缺乏统一标准的现象愈发突出,给各行各业的使用带来极大挑战,亟待产业界正视。
其次,垂直行业有场景、有数据,降本、提质和增效的需求又强烈,对于大模型青睐有加。但大模型的落地与应用极为复杂,迁移、部署过程相当复杂,需要专业的技术人员进行繁琐的配置和不断的调试。
第三,大模型彻底改变了基础设施的规模和复杂性,在训练和推理过程中出现故障更是“家常便饭”,需要快速有效的故障感知和定位机制来保障 AI 模型的稳定运行。随着大模型规模越来越大,大模型的高效运维和稳定运行将是一项长期挑战。
显然,让各种大模型+自主算力更好地适配结合和发挥效应,将是“人工智能+”落地的关键。为此,超聚变正式推出AI Space大模型加速引擎,通过一站式的大模型迁移、训练和推理应用开发解决方案,成功打通“人工智能+”任督二脉,让人工智能应用化繁为简。
大模型从一项技术到具体应用,通常涉及到环境部署、模型训练和模型应用三个核心阶段,每个阶段都有着不小的技术鸿沟,并且每个阶段都不是孤立存在,这使得很多行业用户面对大模型往往是“想用却怕用不好“的心态。
如今,AI Space的出现,有望彻底打破大模型应用的尴尬局面。
具体来看,对于大模型落地而言,好的“开局”等于成功的一半。在当前的中国用户中,大模型彻底改变了基础设施的规模与复杂性,千卡、万卡集群在不断涌现,多元算力环境逐渐成为标配。因此,如何在大规模、复杂的基础设施环境中,完成包括操作系统、硬件等的适配就成为“开局”的关键。
对此,超聚变以完善的工具+专业的服务+丰富的经验来帮助众多企业点亮“开局”。借助自身深厚的操作系统和硬件调优全栈能力,以及自研的开局工具,超聚变AI Space能够帮助客户快速完成环境部署和调试。
进入到训练阶段,随着多元异构算力成为标配,以及集群规模越来越大,加上丰富的应用场景需要不同的算法框架和算子库来支撑,算力的高效匹配正变得愈发重要。对此,超聚变AI Space 通过开发、重构算子,帮助客户解决硬件架构差异导致的训练问题,真正让模型训练“跑起来”。此外,超聚变的模型调优服务,解决精度和性能问题,提升模型训练效率。以LSTM模型为例,LSTM模型算子经过调优后,FP16性能提升了 24.28%, FP32性能提升了 28%以上。
在模型应用阶段,AI集群规模越大,故障中断和集群重启的情况越多,容易导致集群可用性差和大模型应用打折扣。例如,Meta最新报告就指出其Llama 3大模型在万卡集群环境中,45天时间出现数百次故障报错,对于基础设施挑战可见一斑。因此,大模型的故障感知和快速定位,是确保AI集群和大模型用好的关键所在。
超聚变的解决思路,是通过AI Space来实现大模型故障感知定位套件实现故障自动感知、自动分析,加上海量客户调优和故障解决的经验,确保AI 模型在训练和推理过程中的稳定运行。此外,超聚变还通过AI 开发及应用平台,对 AI 计算资源实施统一分配调度,实现了 AI 模型从开发到推理部署的流程化。
可以看出,超聚变AI Space在算力基础设施和大模型应用之间构建起一道“桥梁”,既帮助用户适配和管理起复杂的基础设施环境,实现基础设施层面的化繁为简和“物尽其用”,又通过算子库等一系列专业的工具、服务,让模型层的各类大模型及应用与算力基础设施得到最优的适配,从而真正打通“人工智能+”落地的任督二脉,助力各种企业加速应用人工智能。
据悉,超聚变AI Space 目前成功支持100+大模型相关项目,解决了 500+大模型的生态适配问题,用户涵盖金融、互联网、运营商等多个行业。
大模型等人工智能技术改变世界的“进度条”才刚刚开始。
接下来,随着中国经济迈向高质量发展,各行各业将以人工智能为抓手发展“新知生产力”,全面推动人工智能与应用场景的融合,不仅会带来持续且强劲的算力需求,也将推动算力产业加速变革。
如今,一个AI算力成主导、通用算力与AI算力相互配合的智算时代已经到来。作为算力产业的排头兵,超聚变正在从产品、生态等多个维度发力,全面助力中国算力产业变革。
从产品层面看,超聚变凭借扎实的研发体系和实力,正走向产品创新的厚积薄发,涵盖液冷服务器、大模型加速引擎、训推一体机、操作系统、算力管理软件等。例如,在本次算力大会上,超聚变的FusionPoD for AI新一代全液冷整机柜GPU服务器获评“算力中国·年度重大成果”。
如果说,大模型AI技术是算力产业进化的根本因素,那么生态的繁荣则是算力产业持续进化和做大做强的关键。力产业发展到今天,生态的重要性愈发突出。从本次算力大会可以看出,超聚变对于算力生态的重视。
例如,超聚变携手用户、芯片厂商、设备商、以及产业组织和高校共同成立了液冷AI开放联盟。众所周知,液冷市场如今异常火爆,液冷技术链长且复杂,涉及到液冷数据中心系统架构层、液冷部件及接口层、液冷机柜等,需要超聚变这样的产业龙头来牵引,实现产业整合、标准统一和生态繁荣,让液冷技术更好地支撑起人工智能应用。
又如,安全问题在数字经济时代愈发突出。为此,超聚变携手黄河科技、云智信安、河南绿盟等企业,共同成立中原网络安全生态联盟,在产品、方案、市场等多个维度展开深度合作,共同打造安全可信的中原数智化生态,为千行百业的数智化转型保驾护航。
综合观察,在数字经济的带动下,算力产业走向高质量发展已是大势所趋。超聚变作为算力产业的中坚分子,以产品创新和生态建设为主线,充分释放算力价值,全力驱动大模型等人工智能技术在各行各业中的落地与应用,为数字中国的建设注入持续的源动力。