天极大咖秀

登录 | 申请注册

大模型时代算力底座:万卡超集群如何驱动长期创新?

老冀说科技 2026-02-11 阅读: 4,146 次

国内最大单体国产AI算力资源池正式启用!2月5日,由中科曙光提供的3万卡超集群系统在国家超算互联网核心节点上线试运行,并将用于万亿参数模型训练、高通量推理、AI for Science等大规模AI计算场景。

在老冀看来,这次3万卡超集群的成功部署可谓意义重大,因为它同时承担起了中国经济的“技术破壁者”、“产业赋能者”、“发展新引擎”的三重角色。

技术破壁者

要知道,国内AI市场苦算力久矣。

一方面,过去几年,随着AI在各行各业和消费市场的加速落地,对于AI算力的需求出现了爆发性的增长。知名研究机构IDC预测,2020年到2028年,中国AI算力年均复合增长率高达46.2%,并在2028年达到2781 EFLOPS的惊人规模。

另一方面,由于GPU等关键AI芯片以及高端制程工艺均受到限制,国内AI算力的供给遭遇众多掣肘,供不应求局面日益凸显。

如何解决AI算力的瓶颈?建设能够容纳更多加速卡的AI算力集群,显然是关键的解决之道。

要知道,在大洋彼岸的美国,美国能源部、xAI、OpenAI、Meta等已经建成了超万卡甚至超10万卡的集群。

在国内,虽然已经涌现了一大批国产加速卡厂商,但是单卡性能与英伟达等美国厂商还有一定的差距。由此,国内建设超万卡集群的需求,其实比美国更加强烈。

那为什么在此之前,国产超万卡集群并不多呢?这是因为随着加速卡品类和数量的激增,超万卡集群需要同时解决异构计算、通信效率优化、能耗与散热平衡、系统稳定性保障等多个技术难点,这就需要系统级的解决方案。

当此关键时刻,中科曙光勇敢地站了出来,通过高密度机柜、高速网络、深度优化、智能调度四大技术突破,打造了scaleX万卡超集群,不仅实现了技术的集大成,部分技术与能力已经超越英伟达一年多之后才发布的NVL576里程节点。

而且,中科曙光scaleX万卡超集群基于AI计算开放架构,可全面兼容CUDA等主流软件生态,支持多品牌国产加速卡混合部署,具备向十万卡、百万卡规模的灵活扩展,目前已完成400多个主流大模型、世界模型的适配优化。依托国家超算互联网实现一体化算力调度,更可接入上千款应用,从而可为全球用户提供好用易用的中国AI算力。

产业赋能者

如果你认为3万卡超集群只是让国产AI算力可用,那你就小看它的冲击力了。实际上,它还承担起了算力普惠的角色,为千行百业赋能。

3万卡超集群在国家超算互联网核心节点上线之后,从2月5日到4月30日,国家超算互联网对外公布了邀测计划,不仅为各行业领域专业用户提供从百卡级到万卡级规模的应用适配测试,也可为创客、初创团队、大学生等群体提供上千卡时、百G存储、千万Tokens等免费试用资源。

目前,国家超算互联网的用户规模已经突破100万,接入了超30家国家级超算中心与智算中心,商品数量超过了7200个,已完成了1.96亿的作业量。在2月5日3万卡超集群上线发布会上,还发布了首批千款应用验证成果。

3万卡超集群能做什么?

首先,支持AI头部大厂的全业务。它针对AI头部大厂的超大规模模型训练,支持万亿参数模型的整机训练与容错恢复;它面向高通量推理场景,服务多家头部互联网用户的核心智能化业务,通过联合深度优化,持续提升推理效能。

其次,帮助科研团队降低成本。前不久,科研团队在国家超算互联网平台使用GROMACS v2023.2 加速版,对油-水体系的界面张力进行了计算。计算表明,基于国产异构加速卡,对约2万原子的体系进行1ns模拟,成本低至1元。如今有了3万卡超集群提供的澎湃算力支持,科研进度还能大大加速,成本也能继续降低。

之前在AI for Science领域,scaleX万卡超集群支撑国内某材料研发大模型登顶国际权威榜单,助力国内顶级科研团队将蛋白质研究效率提升3-6个数量级等;同时搭配OneScience科学大模型一站式开发平台,大幅降低多学科交叉研究的创新门槛。

最后,助力创业者快速起飞。此前,大学生创业团队汇视威科技就通过国家超算互联网的平台生态扶持,成长为湖南省“人工智能+”重点企业,其算力商品销量突破4800单。

有了3万卡超集群,即使是规模很小的创业团队,也不用为算力发愁,从而将自己的主要精力放在算法和场景创新方面,快速完成PMF(产品与市场匹配)。老冀相信,有了3万卡超集群的助力,未来会有更多创业公司成长为独角兽甚至行业巨头。

发展新引擎

为行业赋能就够了吗?目前,国家层面正在积极推动全国算力一张网,“十五五”规划建议中就提出推进“全国一体化算力网”,而国务院《关于深入实施“人工智能+”行动的意见》强调“强化智能算力统筹”,指明未来算力发展将加强高效协同。

如今,3万卡超集群在国家超算互联网核心节点的上线,打响了中部算力应用高地崛起“第一枪”,成为全国最大算力调度枢纽,有效联动中国乃至全球算力资源与应用需求。同时,依托规模优势,超算互联网核心节点也将带来人才、数据、应用场景等产业聚集效应,助力区域高质量发展。

此前,“东数西算”的8大算力枢纽和10大算力中心均位于东西部,3万卡超集群部署在中部的郑州,能够更好地连接东部的算力需求和西部的算力供给,充当起全国算力中转分发的枢纽。

如今,我们正在加速走进“人工智能+”时代。3万卡超集群的上线,让AI算力走向普惠,助力AI应用加速普及,还实现了跨区域算力协同。所以说,它不仅仅是技术破壁者和产业赋能者,还在成为经济发展的新引擎。

老冀说科技
作为一名至今仍在一线的科技行业记录者,老冀将带给你新鲜的时间和敏锐的点评!

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)