天极大咖秀

登录 | 申请注册

中国移动×OpenInfra 共谱智算时代新华章

郭涛 2024-09-18 阅读: 865 次
从OpenStack基金会(OSF)到OpenInfra基金会(OIF),中国移动一直是积极的参与者和推动者,始终与基金会并肩前行,共同见证了全球数字基础设施产业的快速发展。

在过去这些年中,基金会始终坚守开源不动摇,通过开放代码、开放设计,驱动了一个个项目从生态化开发到成熟化应用。正是这种开源精神,吸引了成千上万像中国移动这样的支持者,合力推动基金会的繁荣发展。

2024年9月3-4日,OpenInfra Summit Asia 2024在韩国水原市成功举行,这是OpenInfra首次举办亚洲峰会。作为OpenInfra基金会的黄金会员,中国移动积极参与了本次峰会。移动云通用计算产品团队负责人、OpenInfra基金会黄金董事、OpenInfra亚洲咨询委员会成员李向瑜在会议期间做了多场技术报告。

移动云通用计算产品团队负责人、OpenInfra基金会黄金董事、OpenInfra亚洲咨询委员会成员李向瑜

自主创新与开放创新协同共进

当前,新一轮科技革命正在进行中。中国移动将科技创新摆在最突出的位置,聚焦聚力推进。不论是自主创新,还是开放创新,都是中国移动攀登科技高峰的必由之路。

毋庸置疑,开源已成为全球主要的创新模式。大量创新的思想、理念和技术来自于开源。开源协作共享的方式,能够最大程度地释放软件能力,同时降低创新成本。对于一些前沿技术领域的难题,中国移动坚持通过自主创新、自力更生,努力取得了基础性、战略性、原创性的重大成果。

未来,中国移动将始终坚持自主创新与开放创新协同共进的方式,依托中国移动协同创新基地等创新载体,积极融入全球创新体系,加强和开源社区的合作交流,推动更多科技创新成果从样品到产品,共同造福社会。

夯实人工智能基座

进入AIGC时代,人工智能应用的快速兴起,对算力提出了更高的要求。“中心训练、边缘推理”的新范式正在形成。而这与移动云推崇的“云边协同”理念不谋而合。移动云基于“4+N+31+X”的全域资源布局,构建了中心云、边缘云等多层次算力,今年还构建了运营商最大单集群智算中心。同时,移动云提出的COCA 2.0异构计算架构持续创新,融合国产智算生态,构建了智算基础设施能力基石。未来,基于磐石硬件和COCA的移动云,完全可以适应“中心训练、边缘推理”的新范式。

对于“AI到底姓‘开’,还是姓‘闭’”这个问题,李向瑜认为,AI的发展应兼顾开源和闭源的优势。中国移动在AI应用的发展中,特别关注开源和开放创新。前段时间,中国移动发布了九天人工智能基座,包括万卡级智算集群、千亿多模态大模型,以及汇聚百大要素的生态平台。同时,开源了“九天”139亿参数语言大模型,支持语言、视觉、语音和结构化数据等多种模态,并且融合了29个行业的数据,实现了行业知识的深度吸收。

毫无疑问,AI大模型的成长离不开底层算力的支撑。基于移动云“4+N+31+X”算力网络布局,运营商最大单集群智算中心——中国移动智算中心(哈尔滨)成功建成投产,其智能算力规模达6.9EFLOPS。李向瑜坚信,自主和开放协同,软硬生态的结合,定能与产业一道,不断夯实人工智能基座。

以“智”为先
推动下一代基础设施平台建设

峰会期间,在主题为“LOKI and AIOps in China Mobile Cloud”的演讲中,李向瑜具体介绍了LOKI和AIOps在移动云中的应用情况。简言之,LOKI作为移动云平台的一部分,与AIOps相结合,提高了资源管理和运维的智能化水平。

李向瑜认为,LOKI(Linux OpenStack Kubernetes Infrastructure)作为OpenInfra的一部分,反映了未来云基础设施演进的一个主脉络,它有潜力成为大型基础设施层的开放标准。当前,移动云基于该原型做了深度的实践,并有效地验证了其合理性和有效性。LOKI的提出,是OIF和CNCF的一次深度结合,体现了基金会无边界协作的宗旨,更体现了基金会推动基础设施技术发展和普及的决心。“未来,基于LOKI,一定会有越来越多的实践者推动开放、统一的云基础设施建设。”李向瑜如是说。

在AIOps方面,移动云始终践行以数据为驱动,以AI为大脑的理念,为服务提“智”。这里的“智”包含两层含义。首先是智力的智,主要体现在运用大数据、AI技术,从海量的基础设施观测数据中快速感知算力异常,实现智能化运维。其次,就是质量的质。所有智能技术最终都会回归到为客户提供持续稳定的算力这个初衷上。以服务器故障为例,移动云积极研究软、硬件故障预测技术,提前发现问题,并通过热迁移等手段提前将客户的云主机迁移至健康的机器上,从而化解用户云主机的故障风险。

李向瑜还谈到,发挥资源的最大效能,实现成本的优化与效率的提升是移动云在资源管理和调度方面需要考虑的核心问题,也是最大挑战。如同行军打仗,资源分配的前提就是要对各类资源数据进行深度掌握,只有优秀的数据分析AI算法,才能从历史数据中发掘价值,感知资源分配现状并预测使用趋势,为云上最优调度提供数据支撑。同时,针对各种业务场景,通过运用强化学习等智能算法,持续寻求云上调度最优解,是一个始终存在的挑战。

“AI与资源管理和调度的结合,主要体现在通过AI技术对算力数据进行分析,对最优调度路径进行智能寻找。”李向瑜表示,“中国移动作为运营商,有丰富的数据采集和特征提取经验。我们通过积极探索先进的数据分析、调度决策类智能AI算法,并且经过研究和试点,逐步探索出了与AI结合的智能调度路径。”

在2024 OpenInfra亚洲峰会上,移动云被OpenInfra社区授予“技术创新领军企业奖”
(Technology Innovation Leading Enterprise)

开源会更好

OpenInfra基金会在成立了欧洲和亚洲运营中心后,从今年开始,陆续在欧洲以及亚洲的多个国家举办了地区性的会议活动。通过这些贴近当地开源社区、企业和开发者的活动,OpenInfra可以更好地促进区域开源技术的发展与应用。

李向瑜表示,OpenInfra亚洲咨询委员会的成立以及OpenInfra亚洲峰会的举办,都体现了基金会对于区域性生态发展的重视。中国社区的规模堪称亚洲最大,已经从调研和使用,发展到积极回馈社区的阶段。中国有着特定的经济需求属性和技术发展路径。OpenInfra亚洲峰会的举办,有利于加速推进区域协作和本地化发展,更加聚焦区域性战略问题的研讨,推动本土项目的孵化,有力地促进中国及亚洲开源市场的蓬勃发展,确保关键开源基础设施技术保持开放提升。

作为OpenInfra亚洲咨询委员会成员,李向瑜对OpenInfra的未来发展充满期待,希望OpenInfra能够进一步扩大在亚洲和中国的影响力,加强与本地社区的合作,推动开源生态的繁荣发展。中国移动也将秉承“开放合作 共创共赢”的理念,与基金会携手,在智能算力时代共谱新篇章。

郭涛
以“云”为基,以“数”为魂,以“智”为道,新IT,新经济。

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)