从新一代昇腾AI云服务，俯瞰AI算力的云上变局

在今天，一个中国AI大模型想要完成从训练到推理的过程，需要在算力之路上走过九九八十一难。

首先，它会面临英伟达算力卡被禁售、被降级的持续尴尬，算力获取极其昂贵且困难；接下来，它将面临模型参数过大，单卡算力无法支持，需要集群式算力的难题；再进一步，大规模AI计算集群故障频繁，恢复缓慢，极大拖延了训练效率；在推理环节，大模型还需要提升分布式推理能力，提升应用竞争力。

大模型们就像一枚枚棋子。它们在算法层面勇往直前，脚下却没有属于自己的算力棋盘。即使如此，这片土地依旧涌现出了耀眼夺目的大模型创新。但我们也不禁会想，如果拥有坚实有力，且没有外部风险的AI算力底座，AI技术的可能性又将被如何书写？

在HDC 2025，我看到了解答这个问题的方法。华为常务董事、华为云计算CEO张平安宣布基于CloudMatrix384超节点的新一代昇腾AI云服务全面上线，为大模型应用提供澎湃算力。

基于CloudMatrix384超节点的新一代昇腾AI云服务，本质上是对固化的AI算力形态进行了改变。它改变了以单卡为中心的AI算力供应模式，直击了中国AI算力自主化的需求，并找到了云服务这种最契合大模型推训的算力获取方式。

384个AI计算单元，连成了一片“龙鳞”，透过它的反光，看到的是中国AI算力用技术改变规则的能力和决心。

让我们沿着新一代昇腾AI云服务从发现困局，再到技术破局，进而到云服务闭环与赋能行业应用落地的逻辑，去看看AI算力的八十一难，如何变得荡然无存。

从深度学习技术兴起，AI算力作为一种专项需求被提出，产学各界预言了中国的AI算力需求必然会呈现出巨大矛盾。这种矛盾在大模型时代得到了史无前例的爆发。

一边是中国AI产业在算法、应用侧的创新层出不穷，AI在社会经济中扮演的地位愈发重要；另一边是我们始终没有筑起自己的AI算力底座，算力获取严重依赖外部供应。这种供应形态发展到一定程度，就必然会形成体系软肋与发展局限。就像把自己的AI棋子，放在别人的算力棋盘上，当其他人想要掀翻棋盘的时候，我们可能没有任何办法，当我们有了更多棋子，原有的棋盘可能也摆不下。

从过去、现在、未来的三重要素看，中国AI算力都必须走出一条自己的新路来。

1.来自过去的困局：AI算力的外部限制。

自1996年《瓦森纳协定》签订以来，美国长期主导了对中国的芯片出口限制。AI时代到来后，AI算力成为科技铁幕的核心焦点。近几年，美国持续加码对中国的AI算力限制，曾经占据中国AI算力市场份额超过95%的英伟达GPU，不断在被禁与推出阉割版的徘徊中游荡。这让难获取与昂贵，成了AI算力的代名词。

2.来自今天的挑战：大模型崛起带来的算力需求。

把目光放到中国市场本身，会发现算力矛盾依旧突出。伴随着DeepSeek为代表的国产大模型崛起，以及AI Agent等应用爆发。中国大模型需要更加强大的训练推理能力作为支撑已成定局。

比如说，AI Agent的技术逻辑是大模型决策再调用外部工具进行处理，这个国产时延考验。想要让AI Agent真正走向大规模应用，就需要CPU与NPU之间强大的高速通信能力。这些算力的实现，直接决定着AI应用的发展。

3.来自未来的焦虑：为AGI未雨绸缪。

更为关键的是，AI大模型还在快速发展。未来我们可能会迎来训练参数量达到百万亿的大模型，这将导致AI算力需求也被百万倍提升。与此同时，自动驾驶、元宇宙等方向的不断创新，让复杂的多元融合计算逐渐成为主流。我们必须让算力底座预先发展，才能支撑起关于未来近乎无尽的AI想象力。

想要解决这些困境，我们会发现一个核心点在于，依赖外部供应的AI算力单卡绝不可取。必须将算力资源进行集群化、系统化的整合建设，用整体优势消弭个体劣势，才是中国AI算力的取胜之道。

当然，想要实现这个目标技术难度是超乎想象的，好在我们也进行了充分的准备。比如华为在网络方面的数十年积累，可以打破大规模集群式计算的通信瓶颈；昇腾的持续建设，为自主化AI算力提供了支撑；华为云在大规模算力服务提供与下一代云基础设施平台的积累，为打造超节点提供了能力底座。

这些要素融合在一起，让华为有机会打破传统的冯诺依曼架构，实现“一切可池化”“一切皆对等”“一切可组合”的CloudMatrix384超节点，进而将其通过云服务落地千行万业。

AI算力的多重困局，由此找到了从底层改写规则的可能。

想要破局单卡为中心的AI算力困局，就需要向多卡集群方向努力。

用集约式计算提升算力资源利用率，搭建更符合大规模计算需求的超节点。这些思路在业界一直存在，但CloudMatrix384超节点的不同之处在于，其通过计算、存储、网络等诸多技术的协同创新，加上对传统计算架构的彻底颠覆，实现了“最强AI服务器”的打造。

CoudMatrix384是将384个昇腾NPU和192个鲲鹏CPU，通过高速网络互联总线连接起来，组成了一台384卡的AI计算机。中国文化讲求“合”的力量，这种文化基因在CloudMatrix384有着充分的展现。借用集约式计算的形式，CloudMatrix384超越了硬件与芯片工艺的限制，同时通过软硬协同、池化架构和动态算力调配，实现了有效算力的大幅提升。根据相关数据，CloudMatrix384能够实现300PFlops的算力规模，相比英伟达NVL72提升67%。它的出现能够从底层技术上解决一系列迫在眉睫的算力技术难题，比如说：

1.分布式推理需求如何满足？

在DeepSeek爆火之后，MoE模型混合专家大模型成为主流。而混合专家模型的一大特点就是十分考验计算集群的分布式推理能力。CloudMatrix384可以通过超节点的分布式推理引擎，大幅提升单卡的计算与通信效率。单卡吞吐量能够较非超节点提升近4倍，跃升至2300Tokens/s，并支持“一卡一算力任务”，将算力有效使用率（MFU）提升50%以上，并且超节点可以实现MoE模型的“一卡一专家”，一个超节点可以支持384个专家并行推理，极大提升效率。

2.集群规模如何突破？

伴随着大模型的发展，业界对AI算力的需求正在不断扩大，开始呈现出万卡集群向五万卡、十万卡的趋势发展。满足对AI算力规模的需求，是超节点的当务之急。

为此CloudMatrix384通过MatrixLink全对等互联，构建了高速智能网，再加上集群智能调度能力，保障了计算机群的性能无损，实现万卡集群线性度高于95%。在此基础上，CloudMatrix384最高可以将432个超节点进行级联，形成16万卡的AI计算集群，提供10万PFlops级别的算力，从而满足万亿级别的模型训练。由此一来，CloudMatrix384成功大幅打破了最大规模计算集群的边界，充分满足未来很长一段时间内的大模型演化。

3.计算资源如何实现最优？

对于一线AI开发者与行业智能化用户来说，AI算力的问题不仅在于稀缺，还在于浪费多、效率低以及运维复杂。为了能够实现将每一比特AI算力都投入到有效的任务处理中，CloudMatrix384可以支持针对不同推训场景，按逻辑超节点来划分资源，从而实现像搭积木一样给AI任务分配算力，让算力资源“一切可组合”，意味着用户的所有资源投入都得到充分发挥。

除此之外，CloudMatrix384超节点还支持40天长稳训练，10分钟快速恢复。让大模型推训过程中的种种卡点、堵点一扫而空。

在此之前，张平安提出：“CloudMatrix384超节点标志着算力竞争从单点技术突破走向系统架构创新。通过对复杂技术与资源的整合与协同，匹配全面智能时代的企业创新需求，并引领中国 AI产业生态的全面进步。”

有了能够改变AI算力底层逻辑的技术能力，接下来就是需要将CloudMatrix384超节点的技术优势向产业释放。而云服务，就是最好的方向。

CloudMatrix384超节点在技术逻辑上的突破，是打破了单点算力限制，实现算力的弹性、大规模可用，而这种技术特性与云计算的产业特性正好相符。企业在云上获取计算资源，也是为了实现算力规模的自由拓展以及计算资源的灵活匹配。另一方面，AI大模型推训也有弹性算力需求的特征。

将超节点的技术特性-云计算的服务特性-大模型推训的需求特性，三者关联起来看，不难看出超节点想要在产业环境中发挥最大价值，走向云计算平台就是它的最好归宿。在云上获取CloudMatrix384的计算能力，也是最适合大模型应用的算力服务获取方式。

中国文化中说龙从云现。超节点的“龙鳞”，需要在云计算中展露峥嵘。为此，昇腾AI云服务早已做好了准备。

自发布以来，昇腾AI云服务的体系不断成熟，全球化布局不断完善，至今已经被全球1300多家企业选择。在去年9月，华为云发布了AI-Native的云基础设施CloudMatrix。在HDC 2025，华为云正式发布了基于CloudMatrix384超节点的新一代昇腾AI云服务。这意味着超节点超大规模算力、超强分布式推理能力、最优计算资源等一系列具有颠覆意义的算力突破，都可以基于昇腾AI云服务来获取和使用。

为了满足更加多元、复杂的AI需求，华为云还升级了CloudMatrix AI Native基础设施，使新一代昇腾AI云服务更加完善好用。具体而言，华为云CloudMatrix在硬件平台实现了芯片和系统工程的进步。在软件层面，则通过重构协议，优化算法、应用融合和调度智能化等方式突破系统性能的上限。

其中，分布式QingTian是CloudMatrix的核心底座。通过分布式QingTian架构，华为云在超节点架构中首次实现了网络IO设备池化和内存资源池化。网络IO设备池化可以通过分布式QingTianBox智能硬件，将网卡、存储等IO设备解耦重组，让用户像调用本地资源一样使用全局IO能力。内存资源池化则基于华为云创新的Memlink-direct技术实现内存跨主机直接共享，从而打破“单机内存墙”，实现CPU/NPU与内存的弹性配比。

另一方面，计算集群间的网络联接能力已经成为制约计算效果的关键。华为云打造MatrixLink网络技术，实现在CloudMatrix中达成重构组网、重构协议、重构通信语义、重构通信调度的网络能力增强，提升大规模AI集群的计算效率。

与此同时，最新升级的盘古5.5大模型所代表的华为云大模型能力与MaaS服务，已经落地到30多个行业500多个场景，可以充分满足企业用户在模型层的智能化需求。

至此，华为云已经打造了包括算力、模型、AI基础设施在内，完整、可用、可信赖，且突破以往产业边界的AI能力。

新一代昇腾AI云服务不仅实现了为世界提供另一种选择，还基于超节点的突破性与颠覆性，达成了为世界提供更好的选择。

从超节点的技术突破，到新一代昇腾AI云服务的产业体系构建，AI算力底座这个宏大命题终于迎来了期盼已久的颠覆。正所谓“龙行有雨”，由此产生的计算变革，将直接惠及用户与行业，进而加速AI技术的持续突破与经济价值转化。

从用户视角来看，基于新一代昇腾AI云服务来获取超节点算力，既是技术能力上的最佳选择，也是企业价值上对最优选择。

新一代昇腾AI云服务具有确定性的运营运维、容灾备份等核心云服务能力，可以实现集群训练故障支持1min感知，3min WR响应与处置，异常故障恢复时间小于10min。并且云服务开箱可用，能够最大限度降低企业学习成本，同时还是最为经济的AI算力获取选择。

而从行业视角来看，新一代昇腾AI云服务在各个关键领域都展现出了典型且充分的行业实践，证明了自身融入行业智能化需求的价值与可行性。

在资讯领域，新浪新闻的“智慧小浪”是以开源大模型和微博知微大模型为底座模型，深度融合了通用数据以及新浪独有数据的AI产品。基于新一代昇腾AI云服务，“智慧小浪”构建了统一的推理平台，实现了推理交付效率提升超过50%，模型上线速度成倍加快，NPU利用率提升超过40%等一系列价值升级。

在AI领域，硅基流动基于昇腾AI云服务，每天可以为用户提供千亿token服务，实现了用户3个月期间翻倍。面壁智能使用CloudMatrix384超节点，让他们小钢炮模型的推理业务性能得到了2.7倍提升。

在科研领域，中科院基于昇腾 AI云服务自研了训练框架，快速构建中科院 AI4S 科研大模型，打造智能科研平台。

在互联网领域，360打造的中国首个“超级搜索”纳米AI搜索，实现数十家大模型厂商的上百款大模型的高效协作，对AI算力有极大需求，也已开启了CloudMatrix384超节点的测试。同时，昇腾 AI云服务还为新浪的微博智搜带来了搜索能力明显提升、回答能力显著增强等体验升级。

从客户价值到行业价值，新一代昇腾AI云服务已经可谓是泽被原野。至此，一个“用系统架构取代单点优势”的想法，凝结成了CloudMatrix384超节点的复杂技术创新，打磨成了新一代昇腾AI云服务的产业通道，最终落地成了千行万业的AI实践。

AI算力陈旧的规则困局，终于迎来了变革的开启。

几年之前，有人说AI处在最好的时代，同时也是最坏的时代。最好是因为中国有极佳的AI创新氛围，有算法、数据、人才、市场的种种优势，AI技术在这里一日千里。

最坏是因为中国AI所搭建的高楼大厦，都处在地基不牢，随时有坍塌风险的境地里。没有自主且强大的AI算力，一切努力都像镜花水月。

经过多年的沉潜与锤炼，以华为为代表的科技企业，选择正视、思考，并去解决这个问题，在巨大的投入与漫长的积累后，最终找到了破局方案，并达成了CloudMatrix384超节点这个足以改变AI算力规则的变革点。通过新一代昇腾AI云服务，这个变革点将融入千行万业，融入中国AI算力新的底层规则。

或许不久后我们将发现，AI算力的大环境得到了改变甚至颠覆，新的定义是：这是变革的时代，这是我们的时代。

在不久之前，任正非的一篇采访广为流传。他说：“我们单芯片还是落后美国一代，我们用数学补物理、非摩尔补摩尔，用群计算补单芯片，在结果上也能达到实用状况。”尤其在AI芯片领域，他认为用叠加和集群等方法，计算结果上与最先进水平是相当的。

这个判断并非对未来的展望。我们了解新一代昇腾AI云服务之后会发现，这场变革已经实现。

对于我们来说，AI算力正在从高悬头上的制约，变成动力的来源，变成撬动想象力的支点。

AI时代，要听龙鸣。

从新一代昇腾AI云服务，俯瞰AI算力的云上变局

特别声明：文章版权归原作者所有，文章内容为作者个人观点，不代表大咖秀专栏的立场，转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)