技术的突破仅仅是序章,大规模应用而引发的连锁反应才是真正的变革。
今年初,DeepSeek掀起的AI浪潮席卷全球,一周之内即实现亿级用户的爆发式增长和数百家企业踊跃接入,标志着中国AI企业开始掌握将技术突破转化为AI普惠应用的底层逻辑。
回望最近十年AI发展历史,算力始终是横亘在理想与现实之间的一道鸿沟。尤其是在我国,算力的稀缺,犹如悬挂在整个AI产业上的达摩克利斯之剑。而DeepSeek的技术突围,恰恰始于对这场"算力封锁"的颠覆,并激发起整个AI产业的全面创新。
DeepSeek的火爆,让大规模跨节点专家并行(Expert Parallelism ,简称: EP)成为当下AI最重要的趋势之一,同时使得大EP推理解决方案迅速映入用户们的眼帘。随着DeepSeek开始全面进入各行各业的头部用户之中,大EP推理解决方案也成为行业智能化走深向实的那枚楔子,无比低调却又至关重要。
从2012年,AlexNet点燃深度学习革命开始,算力一直是左右AI发展的核心力量。
尤其是在Scaling Law规则的驱动下,AI大模型的训练与推理对于算力需求也迅速水涨船高。AI头部巨头们更是纷纷加码基础设施的布局,从微软、Meta、AWS等重金投建新数据中心,到xAI短时间构建起20万张GPU卡的AI集群,再到OpenAI推出“星际之门”项目,“得算力者得天下”深入人心,AI头部巨头们无不在追求“少量大专家模式”的“性能摸高”。
但这种“技术摸高”的模式会是AI发展创新的唯一路径么?
DeepSeek-R1的横空出现,带来不一样的答案。DeepSeek在工程层面大胆创新,采用大规模跨节点专家并行的模式,在算力规模和先进性受限的情况下,依然能打造出性能强大和先进的AI大模型。所谓“大规模跨节点专家并行”,即将专家分布到更多的算力卡上,减少每张卡权重加载的时延,同时减少权重的显存占用,显著提升单卡并行的路数,从而推动AI大模型的创新。
事实上,在DeepSeek出现之前,AI大模型在行业之中部署与应用依然面临着数据、算法和算力等一系列巨大挑战。很多行业用户既需要面临高质量数据缺乏的挑战,又面临着动辄千卡或者万卡的AI集群带来极高的成本,更受制于AI大模型闭源带来的部署与使用门槛。
而DeepSeek采用大规模跨节点专家并行的模式,利用强化学习来减少人工依赖和数据缺失的问题;通过全面开源的方式,大幅降低AI大模型的获取和部署成本,将AI推理资源池成本降到百卡/千卡范围;并且支持更加轻量、灵活的部署方式,真正降低AI大模型在行业用户环境中的部署与使用成本。
本质上,DeepSeek在工程创新层面做了大量优化工作,真正为中国AI产业走出一条新路,给予整个产业界巨大的信心,并激发起千行百业的AI应用创新。业界也认为,未来AI发展‘性能摸高’和‘工程创新’两条技术路径未来会继续并存。
就像医院问诊一样,过去属于“少量大专家”的模式,通过少量的全科大夫坐诊,每个大夫均处于繁忙状态;而现在,大规模跨节点专家则属于“大量小专家”模式,每个门诊(每张算力卡)均有自己的大夫,不仅可以处理更多用户的需求,还能够带来更好地用户体验。
当然,除了具备具备多种优势之外,大规模跨节点专家并行模式也并非完美无瑕,随着专家数量的增加,一系列新挑战也接踵而至。
事实上,大规模跨节点专家并行模式并不是专家越多越好;相反,专家数量存在一个“甜点”区域,当超过这个区域,性能提升并不明显甚至会出现下降。在大规模跨节点专家并行模式中,多专家的负载均衡和通信优化是最为突出的挑战。
例如,AI大模型的推理属于自回归过程,包括Prefill和Decode两个阶段。Prefill属于预填充,将用户请求的prompt传入大模型并进行计算,属于典型的计算密集型,需要耗费大量算力;而Decode则是增量推理阶段,从显存读取前文产生的KVCache再进行计算,属于访存密集型。这两个阶段对于算力资源需求存在着明显差异,需要算力效率和通信开销进行均衡优化。
所谓多专家负载均衡,即在业务处理中,肯能会出现某一位专家特别忙,而其他专家处于闲置状态,需要尽可能让所有专家“人尽其用”,从而让算力资源高效化。而通信优化则是需要觉接ALL2ALL通信占比时间过高的问题,即当需要多个专家处理某个问题时候,专家互相之间交换意见的时间需要不短优化,以实现更高效地处理好业务。
因此,在大EP推理解决方案中,算力等硬件能力只是基础,系统层面的整体优化才是推理加速的关键因素,这也要求解决方案商必须具备从架构到算法的端到端全栈优化能力。
事实上,环顾当下整个市场,针对DeepSeek AI大模型的推理解决方案并不少,而华为依然占据着整个市场的大部分份额,其成功的关键就在于全栈能力。华为昇腾的大EP推理解决方案涵盖从推理系列硬件,到CANN硬件使能层,再到推理引擎,以及全面的开发工具链和套件,从而实现性能更高、并发更高和体验更优。
据悉,华为昇腾大EP推理解决方案能够实现单卡并发3倍的提升,Decode时延能够降低50%以上,大幅降低用户的部署和使用成本,使用体验也得以大幅提升。此外,用户之前一体机方案,通过交换机进行参数面互联,基于现有组网架构软件升级,即可升级到华为昇腾大EP推理方案。
如今,AI全面走向推理时代。有人甚至认为,应用的未来在于推理,推理将成为所有应用未来的核心组件之一。
毫无疑问,在当前的行业智能化建设中,降低AI推理的部署、使用和成本门槛具有极为意义重大。降低门槛,意味着有更多行业用户能够把AI推理用起来和使用好,进而推动AI在行业场景中创新的充分释放,再进一步带动AI应用在To B领域的繁荣,最终形成良性循环。
华为昇腾大EP推理解决方案的推出,无疑为AI推理的普及带来一份重要答卷,也为行业智能化走深向实提供坚实基础。
首先,凭借对AI技术趋势的前瞻洞察以及战略定力,华为昇腾大EP推理解决方案拥有大量关键创新,包括MoE负载均衡、autoPD分离部署、双流/多维混合并行、MLAPO融合算力等五大关键技术,能够实现整体方案层面的性能吞吐和时延最优,真正帮助行业用户应对AI推理时代的到来。
例如,华为的autoPD分离部署是自适应PD分离部署,自动感知负载变化,且无需人工介入,实现多级缓存内存资源池化,冷热KV分层加载,不仅能够大幅提升系统的资源利用率,而且可以动态适应场景的变化需求。
其次,除了全栈自研能力之外,华为在计算、网络和AI大模型等多个领域拥有丰富的经验积累,使得昇腾大EP推理解决方案不仅实现性能最优,更贴近当前用户的使用需求。
相反,目前国际厂商针对中国市场的“阉割版”方案,其性能落差巨大、短板明显,FP16算力只有148TFLOPS。面对大规模分布式任务时,在类似DeepSeek大规模专家并行模式的推理场景下,“阉割版”方案无法有效支撑提升并发数和单卡吞吐,尤其是输入样本数量和序列长度提升的情况下,算力瓶颈暴露无疑。
此外,DeepSeek等AI大模型采用“潮汐导读”实现92%的日均算力利用率,即利用“白天推理、晚上训练”的模式来充分释放硬件性能,而“阉割版”方案对于特定架构过度依赖,算力受限使得其在AI没到校预训练场景中几乎难有作为,无法满足训推一体的使用需求。加上AI大模型加速向MoE模式演进,“阉割版”方案不仅成本高昂,还面临着潜在的战略隐患,使得其很难满足当下行业用户的需求。
以MoE负载均衡为例,华为自身是通信起家,对于大容量、大并发的通信场景拥有大量时间,并且积累起丰富的经验,针对大规模跨节点专家并行,不仅能够根据业务情况、集群规模、专家情况来自动寻优,还能自动预测和自动降解,让专家与资源配比最优,实现整个MoE负载均衡在业界最优。
最后,华为昇腾大EP推理解决方案始终秉持开放共赢的战略,聚焦底层根技术的基础创新,不仅与DeepSeek等AI大模型企业保持着紧密联系,共同攻坚与联合创新来应对AI日新月异的发展苏,更携手产业链伙伴形成AI应用普惠化的产业协同效应,推动中国AI产业良性发展轨道。
综合观察,历史告诉我们:伟大的基础设施从来不只是工具,更是产业变革和社会经济发展的引擎。当AI应用开始走进田间地头、政务大厅、工厂厂房、医疗机构、港口码头、金融柜台……中国正引领AI推理时代最大的技术平权运动。而以DeepSeek、华为等为代表的中国企业,在AI基础设施领域的持续探索与创新,无疑中国AI普惠开辟出一条属于自己的康庄大道。