天极大咖秀

登录 | 申请注册

为什么大模型需要大设施?华为“三力四总线”给你答案!

海峰看科技 2023-09-27 阅读: 2,568 次

文/黄海峰的通信生活

今年大模型集中爆发,呈现出百模千态的繁荣局面。据《中国人工智能大模型地图研究报告》数据统计显示,截至5月底,我国10亿参数规模以上的大模型已发布79个。

在繁荣的景象背后,也有不少问题令人担忧。一方面,AI模型对算力资源需求日益提升,该如何满足?另一方面,AI深入千行百业,面向不同场景的各异需求,该如何应对?

在华为全联接大会2023上,华为董事、ICT产品与解决方案总裁杨超斌发布了“三力四总线”,即大算力、大存力、大运力的“AI集群大设施”,构建多场景AI算力和广域、园区、工业和微企四大核心行业场景智能总线,为行业智能化升级赋能,实现智能无处不在。

面对智能新时代发来的邀约,华为为何给出这样的答案?又当如何理解?

“算存运”并驾齐驱,使能百模千态

作为AI领域的里程碑式突破,大模型的出现让AI的未来前景变得更加清晰和广阔。根据《智能经济》报告指出,预计到2030年,由AI推动的全球智能经济的价值将达到18.8万亿美元,这一数字十分可观。

要想发展好大模型,离不开AI集群大设施底座,这就需要大算力、大存力、大运力三架“马车”并驾齐驱,如何理解?大家不妨将大模型运作原理模拟成一台计算机,算力如处理器,运力如主板电路,存力如内存,只有内存充足、主板电路传输快、处理器才能快速运行,以保障计算机高速运行。

看到这你可能要问了,世间有无两全法,让算力、存力与运力高效协同?答案便是构建“大算力、大存力、大运力”大设施底座,让算力发展不要偏科。对此,杨超斌进行了详细解读,给出了华为的应对之策。

首先,在算力方面,随着AI大模型规模的不断扩大,以CPU为中心的传统计算架构面临挑战。面向不同场景的算力需求,华为通过架构和系统创新,从服务器到集群,构筑多场景的大算力平台,突破算力瓶颈,满足千行万业的差异化需求。

其次,在存力方面,企业在开发和应用大模型的过程中也面临挑战。一方面,当前PB级的海量小文件加载速度仅100MB/s,难以跟上GPU运算速度,造成大量算力资源浪费。另一方面,为应对网络波动、算力故障和参数调优等问题,模型训练时每隔两小时需保存一次高达TB级的Checkpoint文件。保存时GPU停止训练,大文件写性能不足,导致GPU空置时间长。此外,大模型在专业领域的知识更新滞后,数据质量不高,出现答非所问现象,行业实用性亟待提升。

基于此,华为发布高性能AI知识库存储OceanStor A800,具备超高性能、超快恢复和超强推理三大优势,其训练数据加载效率达到业界4倍,断点续训恢复速度达到业界3倍,知识库检索效率领先业界30%,解决大模型训练/推理过程中的数据处理效率瓶颈。

笔者获悉,作为全球高端的存储设备厂商,华为相应存储产品已经在国内十大模型厂商得到规模部署,包括我们熟知的科大讯飞、中科院等。

最后, 运力方面,华为发布业界首款高运力DCN星河AI智算交换机,和业界容量最大的超宽全光智能DCI方案,以大规模,大容量网络运力释放大算力。

华为星河AI网络解决方案,打造AI时代最强运力,拥有10万卡级组网和超95%负载率的超高吞吐,具备网络故障预测和秒级定界修复的长稳可靠,大小流精细化编排和弹性抗劣化冲击的弹性高并发。

四大联接总线方案,让业务走向全智能

AI大模型赋能的过程如同一场接力赛,即前半段完成数据价值从0到1的创造,后半段需要将价值触达到千行百业。可以看出,杨超斌推出的“三力”是为赛程前半段而来,后半段又将如何完成?

一方面,面向各类业务场景对AI的部署需求,华为推出的全场景AI计算产品,包括Atlas系列集群、训练和推理服务器、训练推理一体机、AI加速模块等,满足中心、边缘及端侧的多样化模型训练和推理需求。

另一方面,华为提出了“智能联接总线”方案,实现AI行业应用场景的智能联接。据杨超斌介绍,华为已经将“智能联接总线”方案应用到广域、园区、工业、微企等多个行业场景,具体进展如何?

第一,在电力、交通、城市等广域场景,有大量行业AI应用,如电网差动保护、铁路视频分析、全息交通路口等,需要大带宽、低时延、安全隔离的网络。华为推出轻量化、免设计的智能“SE-OTN”(小型化OTN)产品,具备无需光层、十倍带宽、安全可靠、最优TCO四大优势,支持主流100G带宽、业务间100%物理硬隔离,实现了广域智能总线的端到端超宽无损联接快速部署。

第二,在园区场景,智能化升级正全面展开,从AI智能语音、图像和视频,到未来AI智能辅助产品设计,人与AI可以共同进行产品创意、绘图、仿真等。这些智能应用大幅提升了办公效率,要求高带宽、全覆盖和智能化的园区网络。华为发布智能万兆园区解决方案,以极速接入、极简架构、极致体验、极简运维四大特征,让设备“开口说话”,让设备“讲普通话”,让网络“更机灵”,打造万兆到办公、万兆到生产、万兆到分支的高品质园区网络体验,加速企业迈向智能化。

第三,在工业场景,越来越多新型智能化装备进入到生产现场,如AI质检、AI巡检机器人、智能AGV等。这些对网络带宽提出更高的要求:更大带宽,确定性低时延、超高可靠。华为智能编排的确定性低时延TSN交换机和工业光网、Wi-Fi7等技术协同,打造泛在超宽工业智能总线,满足IT业务和OT业务的双重需要,实现数据“上得来”,智能“下得去”。

第四,在微企业场景,华为推出一站式微企智能套装,提供全业务接入和智能漫游网络能力,帮助小微企业实现云端AI应用落地,实现智能化办公和生产,加速企业数字化转型。

笔者观察:打造算力底座,赋能千行万业

回顾今年华为全联接大会,“全面智能化”被广泛提及,这一战略直指千行万业智能化转型,从数字化到智能化,未来将会发生哪些改变?

随着大模型兴起,我国数据将迎来爆发式增长,预计2025年我国数据量将从7.6ZB增至48.6ZB,超过美国成为全球第一。

深耕ICT基础设施三十余年的华为,很快找准了自己的站位,即甘做“百花园”的黑土地,支持大模型在智能化时代的“百花齐放”。

一方面,为了解决算力稀缺难题,华为构建“AI集群大设施”,为世界提供第二选择。另一方面,为了让百模千态与行业场景深度融合,华为发布四大“智能联接总线”方案,解决AI落地难的问题。

见微知著,我们可以借此一窥华为在大模型上的布局。据了解,华为已与30多家硬件伙伴和1300多家软件伙伴,联合打造超过2600个AI场景方案。同时,华为与伙伴共同打造超过50个大模型,与行业场景深度结合,已在多个行业实现大模型落地。

2003年,华为提出“All IP”战略;2013年,华为提出“All Cloud”;下一个十年,站在智能化时代加速的黄金路口,希望华为以“All Intelligence”为指引,为世界打造坚实的算力底座,使能百模千态,赋能千行万业。

海峰看科技
独立科技评论员,《海峰看科技》账号创始人,多次接受央视、环球时报、科技日报等采访。 ICT行业杂志前副主编,从业十多年,聚焦5G、手机、IoT、光、云、AI、互联网、智能汽车、机器人等。 每年与超100位科技行业企业CXO/VP/总监面对面交流。 多个年度《中国信息通信行业发展报告》特约撰稿人。 毕业于北京邮电大学,曾获十大通信行业自媒体称号。

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)