天极大咖秀

登录 | 申请注册

从DeepSeek到昇腾384超节点,中国AI突围启示录

智能进化论 2025-06-20 阅读: 9,842 次

 “不去想困难,干就完了,一步一步往前走。”

作者 | 小葳“芯片问题其实没必要担心”、“我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。”

不久前,华为首席执行官任正非接受媒体采访的内容,引发科技界广泛关注。其中“用群计算补单芯片”的技术突破指的就是昇腾384超节点。

今年5月,华为在鲲鹏昇腾开发者大会推出昇腾384超节点。其原理是通过华为自研的高速总线互联技术,创新提出了对等计算架构,并把总线从服务器内部,扩展到整机柜、甚至跨机柜,将384张昇腾卡无缝集成为一个集群。通过超高通信带宽和纳秒级通信时延,昇腾384超节点能够让一个集群如同单一计算机般协同工作,其首次实现了在一个超节点域内即可完成DeepSeek V3/R1所有的专家并行(EP)。

这一突破的意义远超技术本身。

人工智能是全球科技竞争的关键领域。当对手试图通过切断先进芯片供应、乃至全球禁止使用昇腾芯片来扼制我们的AI产业发展时,从DeepSeek到昇腾384超节点都一再证明:即使在面临核心制约的逆风局下,通过算力架构创新、算法结构创新,中国科技企业不仅能实现模型与算力的双突破,更从根本上动摇了外部技术封锁的有效性。

对于今年中国人工智能产业的一系列突破,不久前美国主流媒体报道称“这是个让人很难接受的现实,但中国科技的确在封锁中取得进步,因为中国企业家找到了用较少资源实现更多目标的创新之道。”

昇腾384超节点破局的底气来自华为在根技术、根生态的深耕。它不仅提供了当下可用的算力解决方案,更开启了一条依托系统工程与集群智能,实现AI算力自主可控并持续跃升的产业新范式。

路径创新,中国AI产业不容小觑的后发优势

从DeepSeek到昇腾384超节点,回顾中国AI力量的发展会发现,每一次重大技术突破都是依靠路径创新。

DeepSeek通过高效模型架构、高效强化学习、高效算力利用等一系列工程与算法协同创新,实现更强推理能力并大幅降低了模型训练成本。这背后是混合专家架构DeepSeek MoE、群组相对策略优化(GRPO)、多头潜在注意力机制(MLA)、多Token预测(MTP)等一系列技术的综合运用。

比如,此前以GPT为代表的模型,需要大量人工标注的高质量数据进行监督微调,再通过人类反馈的强化学习(RLHF)指导模型改进。而DeepSeek探索出了一条全新的道路,通过群组相对策略优化(GRPO)等技术,可以不依赖大量人工标注数据,单纯通过强化学习(RL),让模型获得同样强大的推理能力。

昇腾384超节点同样打破了原有规则,开拓了一条全新的道路。

CPU时代的服务器通过以太网络进行跨机互联,通信带宽较低。这种通信架构到了GPU/NPU/XPU为主的AI时代,服务器跨机带宽已成为训练的核心阻碍。尤其是当MoE模型成为主流的模型架构,TP/PP/SP/EP等混合并行策略日益复杂,传统通信架构更加捉襟见肘。

基于华为在ICT领域的根技术积累,昇腾384超节点创新提出对等计算架构,替代以CPU为中心的冯诺依曼架构。在一个超节点范围内,用高速总线互联替代传统以太网络,将通信带宽提升了15倍;单跳通信时延也从2微秒降低到200纳秒,降低了10倍。经过硅基流动实测,单用户 20 TPS 水平前提下,昇腾384超节点单卡 Decode 吞吐突破 1920 Tokens / s,可比肩 H100 部署性能。

前沿科技领域,先发者的确有制定规则、引领技术发展的优势,但其技术路线不一定一直是最优解,后发者也不一定会一直落后。只有架构创新,才能让后发者打破领先者既定的游戏规则和玩法,重新开一局。

然而架构创新并非一蹴而就,以昇腾384超节点为例,笔者认为其技术突破的背后离不开几个核心因素。

首先,持续投入基础研究,是架构创新的前提。

基础研究需要长期主义的时间耐力与资金定力,缺一不可。过去10年华为累计研发投入12490亿,平均每年超千亿。2024年华为研发总投入1800亿,其中600亿投入基础理论研究,不设考核指标。

任正非也一直强调基础研究的重要性,“基础研究不止5—10年,一般要10年、20年或更长的时间。如果不搞基础研究,就没根。即使叶茂,欣欣向荣,风一吹就会倒的。”超节点技术的突破,正是华为在ICT、芯片、光通信等领域数十年技术积累的厚积薄发。

其次,布局AI算力产业的战略级定力。

架构创新是贯穿昇腾计算产业发展的战略级方向之一。早在2018年,华为首次发布AI发展战略时,排在首位的就是投资基础研究,这也为后续架构创新指明方向。2019年,华为发布整体计算战略时,就把架构创新作为四大战略举措之首,提出用创新的处理器架构来匹配算力的增速。2023年,华为发布All Intelligence战略,提出持续投入,不断探索,构建起根技术优势。

第三,抓住计算系统结构性变革机遇。

随着模型参数规模和结构复杂度不断升级,算力集群规模也从千卡迈入万卡、10万卡时代。由此引发计算系统发生结构性变革,历经单芯片——多芯片互联——集群通信的演进,算力基础设施已经从“强单体”升级为“强系统”。对于企业等AI需求侧,更加关注的是系统算力性能,而不再是单处理器性能,这也为昇腾“超节点+集群”系统算力解决方案提供了创新空间。

深度开放,扩大中国AI全球朋友圈

正是超节点等核心技术的突破,让竞争对手看到了昇腾的强大,出台各种禁令。笔者认为,相比技术,让对手更慌的其实是我们的AI产业生态。

2025年5月,在台北国际电脑展期间,英伟达首席执行官黄仁勋就在媒体采访中表达了对中国AI生态的警惕。

“眼下正值竞争对手迅速追赶、加速布局的关键时刻,我们却选择限制自身技术在全球的扩散,是搬起石头砸自己的脚”、“如果我们选择放弃参与,让中国构建出一个完整而繁荣的本土生态系统,而美国企业又完全缺席,那么未来主导这个新平台的就将不再是美国。”

显然,AI时代的计算产业生态,领先者恒强的模式已经被打破,技术封锁只会故步自封,谁更开放、谁更创新,谁才能够在未来的产业版图中占据不败之地。

过去6年来,昇腾加速构建起一套全面对标的AI生态体系,并且以更加开放创新的战略,加速跃迁到开源开放生态的发展阶段:

编程语言方面,2023年5月AscendC 语言发布,通过开发者友好的方式,提供基于昇腾AI硬件高效开发算子的全新语言;

AI框架方面,2020年3月昇思MindSpore开源,其高效分布式并行、图算深度融合等关键特性一直在持续演进;

计算架构方面,2023年起CANN坚持深度开放,目前已开源算子加速库、通信算法、Ascend C、集合通信库等核心组件,同时发布CATLASS算子模板库、开放190+Runtime运行时接口等,进一步降低开发门槛,提升开发体验;

编译器方面,毕昇编译器已将Ascend NPU IR接口开放,实现无感对接Triton、FlagTree等基于Python 的算子编程框架;

算子加速库方面,昇腾AOL算子加速库通过基础算子和融合算子,为开发者提供丰富的参考样例,提升创新效率。

虽然目前昇腾生态还在发展初期,但已展现出强大生命力。正是通过开放创新战略,不断降低开发者使用门槛、提升开发效率,昇腾赢得越来越多AI开发者的青睐。

目前昇腾全球开发者突破330万,核心开发者达到5万。在中国通过与众多高校合作,昇腾累计培养了40多万名学昇腾、懂昇腾的学生,如今他们已经步入千行万业,成为中国AI产业发展的中坚力量。

同样,只有开放创新,才能让一个计算产业生态在全球获得越来越广的朋友圈。近年来,昇腾不断加大与主流第三方AI生态的兼容,比如目前Pytorch、vLLM全面支持昇腾。昇腾通过开展大量技术和生态合作,为全球开发者提供了极致开发体验的同时,也为全球AI开源生态持续贡献中国力量。

结语

当记者问到,面对外部封锁打压心里怎么想时,任正非的回答是:“没有想过,想也没有用。不去想困难,干就完了,一步一步往前走。

历史证明,封锁从未扼杀进步,只会加速创新范式的迭代。

从DeepSeek到昇腾384超节点,不仅是技术突破,更是中国式创新的隐喻:中国正从技术追赶者变为新框架的探索者与构建者。

放眼未来,我们期待全球AI产业见证更多中国创新力量的崛起。

END

本文为「智能进化论」原创作品。

智能进化论
专注云计算、AI、数字化转型领域深度报道。

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)