智算网络谜题，与“解密者”新华三

根据高盛研究公司（GSR）数据报告显示，AIGC将推动全球国民生产总值（GDP）增长7%，带来近7万亿美元的GDP增长，并在未来使生产力提高1.5%。面对如此巨大的价值涌现，每个行业、每家企业都希望率先推开AI时代之门。

而在面向AI大模型的探索中，智算的效率与成本成为关键问题。根据相关数据，每建设100P算力的集群，成本就要达到4亿人民币。根据此前OpenAI披露的数据，ChatGPT平均每天的训练算力花费达到了70万美元。

目前阶段，在AI算力价格持续上涨的大背景下，千卡、万卡训练集群已经成为常态。智算集群开始向五万卡演进，并且异构化开始成为智算集群的新常态。然而我们可以看到，有大量AI算力因智算网络的丢包问题被浪费，网络故障成为拖慢模型训练进度的常见因素，如何让网络适配异构算力成为重要难题。

可以说，智算网络已经成为AI基础设施发挥能效的关键。想要借助智算推开AI时代的大门，首选需要铸造智算网络这把钥匙。

那么，究竟如何才能破解智算网络的种种谜题？

不久之前，新华三集团发布了智算网络解决方案。这一方案主张充分发挥“算力×联接”的倍增效应，以标准化联接支撑多元算力释放。新华三也通过对算力和联接技术进行最佳的调优与配合，来实践了对于智算网络的技术主张。

从中我们可以看到，开放解耦就是智算网络的关键解题思路，是一把AI时代的智算网络之钥。

难题：异构算力互联的不确定性

当前，多元异构算力已经成为AI基础设施建设的主流选择。异构算力体系可以充分发挥各种计算设备的优势，具备多样性、灵活性、高效性等特点，能够更好发挥出智算效用。但是，在实际部署中，用户却必须面对异构算力互联的一系列不确定性。这些痛点的存在，极大程度限制了智算网络，甚至整个智算基础设施的发展。

首先，是智算网络本身的不确定性。

在大规模智算集群组网的情况下，智算网络本身会出现延迟、丢包等一系列不确定性因素。根据相关数据显示，智算网络达到1.5%的丢包率就会使数据吞吐量降低50%，而智算网络一旦出现故障，往往需要一周甚至几周的时间来进行修复。随着组网规模的扩大，智算网络的不确定性问题也会被持续放大。

其次，是异构算力实施效果的不确定性。

异构算力已经成为智算基础设施的必然趋势，但在实际场景中，大多数用户对于智算场景都是初次接触，并不像传统ICT基础设施建设那样可以轻车熟路地进行规划、采购、部署。此外，在异构算力组网时就会遇到不同厂商组件的组合问题。服务器平台、GPU、网卡、光模块、交换机等领域都有大量的厂商参与。最终实施效果能否达到预期，不同厂商的组件能否实现互联互通，互通后的性能、可靠性、风险性如何，都是用户必须面临的不确定性问题。

再次，是智算网络与算力之间联动的不确定性。

为了保证智算业务有序平稳发展，网络必须与算力调度平台联动起来。而国内大多算力厂商没有配套的网络设备和平台。因此，想用网络打通异构算力，则必须具备与多家厂商的CCL（集合通信库）的兼容对接能力，将算力需求转译为网络配置，也就是所谓的“异构算网联动”。

想要解决异构算力互联所面临的一系列难题，实现异构算力的效果最大化，最佳选择就是在提升智算网络性能的同时，用网络来贯穿异构基础设施，拉通异构算力生态。为了实现这个目标，就必须推动智算网络走向开放解耦。

解题：将开放解耦作为智算网络之钥

在智算体系当中，网络是连接 CPU、xPU、内存、存储等资源的基础设施，贯穿数据计算、存储全流程，是拉通生态的重要介质。网络的冗余性、高可靠、高弹性，以及以太协议的开放性，可以帮助技术不成熟的产品消除限制，确保整个异构算力体系达成最优效果。

为了实现这个理想化目标，智算网络必须具备开放解耦的特质。

所谓开放，就是在联接上实现标准化，确保网络基础设施可以打通不同的算力组件，实现无痛、可实施的异构组网。

新华三认为，在高性能网络领域，无损以太网（RoCE）是一个快速普及且被大众所认可的技术。基于无损以太网推进智算网络标准化，在成本、未来演进和生态丰富度上具备天然的优势。通过无损以太网的标准化建设，用户可以获得最具优势的方案，极大拓展选择上的自由度与实施上的可靠性。除此之外，用户还可以利用以太网的标准化特质，逐步构建大规模智算集群。实现根据业务需要，对智算集群进行灵活拓展升级。

所谓解耦，则是将网络平台与智算平台进行解耦，增强网络对于多元异构算力的承载能力，并且通过网络的应用感知和资源分配机制，及时响应各类应用需求，最终可以充分发挥算力生态中各领域的优势，实现资源共享和高效协作，帮助用户享有先进的AI智算平台、优秀的网络设备和高品质的联接介质。

基于开放解耦的智算网络建设理念，新华三推动解决了CPU、GPU、网卡、光模块等异构组件间的互联问题，打造了广泛适配、灵活扩展的网络联接。

开放解耦就像一把钥匙，可以联动智算集群的不同组件，以及智算生态中的各个角色，最终实现用户的智算目标价值最大化。带着这把钥匙，新华三打造了全新的智算网络解决方案，为用户打开了智能世界的大门。

实践：新华三的智算网络探索

开放解耦的网络建设理念，想要最终形成智算网络解决方案并不容易。它需要兼顾不同的组网方式、不同场景的网络调优需求，以及不同规模的智算中心网络建设需求，并且能够兼顾解决用户在规划、组网、用网、运维等不同阶段的技术要求。

最终，新华三聚焦网络优势，提供了强大、灵活、多元且具备高支撑度的异构算力互联架构，探索出了全新的智算网络解决方案。

如上文所说，对于异构算力互联来说，用户有生态开放、平台解耦、算网协同三方面的主要诉求。而新华三智算网络解决方案，恰好可以应对这些痛点。

在基于以太协议进行标准化智算组网领域，由于用户需要实现不同的组网架构，因此需要获得多元可靠的网络产品。为此，新华三可以提供多元化的产品布局，提供支持200G/400G/800G不同端口密度的盒式产品/框式产品，以及先进架构DDC（Distributed Disaggregated Chassis）产品，提供多种组网架构，满足不同规模、不同智算平台、不同建设环境的客户的需要。

在用网阶段，用户需要负载多样化的网卡，实现负载均衡。

为此，新华三智算网络解决方案带来了全局负载均衡技术，可以带来极致的带宽利用率，从而解决传统智算网络中通信流量拥塞敏感性高、低时延、高吞吐等需求，易导致负载分担不均、整网吞吐下降等问题。

同时，针对不同智算场景，新华三会提供最适合的负载均衡技术组合，合理调整流量的带宽利用问题，提升智算中心算力规模和效率。比如说，可以应用SprayLink解决链路均衡的问题，通过实时监控LACP/ECMP中各物理链路的带宽利用率，出口队列，缓存占用，传输时延等精细化数据，对大象流做到基于Per-Packet方式的动态负载分担，将每个数据包分配到当时资源最优的链路上，从而实现链路宽带利用率提升至95%的效果。

新华三认为，目前最优的负载均衡技术是DDC（Disaggregated Distributed Chassis分布式解耦机框）。它能将传统框式交换机的主控、网板、线卡分解为分布式的模块化部件，以提高网络的灵活性、可扩展性和性能。DDC基于信元交换，任何协议的流量在进入DDC架构时都可被切成等分大小的信元，在内部多条链路上负载，完全解决了Hash极化问题，可以实现100%的负载分担。在流量发出时，信元又将重组为原始数据。信元交换无视数据协议，不会产生乱序，对GPU和网卡都是天然解耦的。

此外，DDC架构扩展性强，传统框式设备无论如何设计，其容纳的端口都是有限的。而将其拆解之后，通过横向扩展可以支持数千个200G/400G端口，且最大可支持32K（400G）GPU卡，这是框式设备无法实现的，也可以大幅降低部署难度和功耗。新华三DDC产品拥有独立的高性能控制平面，可以实现网元失效后us级别的收敛，以及网元上线的快速即插即用，可靠性和灵活度均能实现业界领先。

在异构算网协同领域，新华三智算网络解决方案能够支持异构GPU/网卡的算网路径协同能力。一方面可以利用负载均衡来提升网络利用率，另一方面还能够通过控制器分析，主动进行选路与规划仿真，从上帝视角实现整网的协同处理。

除此之外，为了实现开放解耦的目标，新华三还搭建了业界最开放的生态合作环境。其各条产品线都采用了多家合作伙伴的交付件，包括GPU、网卡、光模块、交换芯片。基于这样的产业优势，新华三还实现了能够代替客户验证异构算力环境的兼容性。

新华三制定了智算网络异构连通专项测试，可对光模块、电缆进行高可靠性测试验证，从而解决了与网卡互联互通的问题，为客户提供一套经过验证过的交付方案。

通过在技术、产品、生态等环节践行开放解耦，新华三成功破解了异构算力互联的时代谜题，将AI基础设施的不确定性，换做智能时代产业价值的确定性。

智算网络谜题，与“解密者”新华三

特别声明：文章版权归原作者所有，文章内容为作者个人观点，不代表大咖秀专栏的立场，转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)