假如IT运维真的实现了智能化、自动化,那么运维人员是不是要失业了?
至少到目前为止,这还只能是一个假设。虽然AIOps发展迅速,但当前毕竟还处于应用的初级阶段。参考华为在电信运营商市场的实践,虽然AIOps的应用场景越来越多、客户数量也在持续增加,但与成千上万的电信业务场景相比,现阶段AIOps应用的占比还只是九牛一毛。
不过让人感到兴奋的是,有统计数据显示,63%的电信运营商已经开始投资AI、大数据分析等技术,以实现故障自愈和主动维护。AIOps的应用在不断加速,这种趋势不仅体现在电信运营商市场,园区、数据中心和企业的IT监控运维等市场都潜力巨大。
运维智能化刻不容缓
对于AIOps来说,电信运营商是个典型的市场。华为NAIE AI模型与训练服务部部长杨建表示,AIOps是加速运维智能化转型的趋势所向。
华为NAIE AI模型与训练服务部部长杨建
随着5G、云和AI的逐步成熟与应用,整个社会正在加速进入智能化,总体趋势是消费的线上化、经济运行的数字化,以及社会治理的智能化,而支撑这一切的重要基础就是ICT基础设施。举例来说,5G的到来让电信业务变得越来越复杂,运营商对业务的敏捷性、SLA、带宽、时延等的要求越来越高,再加上设备、应用和连接的复杂度,电信网络运维面临的挑战日益严峻,向智能运维模式转型已经刻不容缓。
杨建分析说,传统电信网络运维的瓶颈主要表现在以下四个方面:第一,运维系统割裂,60%的运营商都存在OSS各专业系统独立、新功能应用上线周期长等问题;第二,被动式运维,故障诊断主要依赖经验,故障处理耗时长且准确率低;第三,运维的自动化程度低,以领域划分,流程人工参与环节多,导致成本激增;第四,故障解决困难,运维人员90%的时间都花在定位故障上,本末倒置。
解决上述问题,只有唯一的方法,那就是“智能、智能、智能”。重要的事情说三遍!“引入AI能力,使能网络运维的预测、分析、决策的自动化闭环,这就是华为要做的。”杨建如是说,“华为的AIOps服务支持全域网络场景,为通信网络提供可靠的运维保障。”
截至2021年1月底,华为AIOps服务在全球累计部署110+现网局点,核心API每月调用达4.1亿次,上传到系统中的KPI数量超过10万,日志数据超过3TB,每天处理的告警数量超过1000万。这组数字足以让华为感到自豪。
根据专业研究机构的定义,AIOps是指把机器学习、深度学习等自动化模型发现算法应用于IT运维工具和业务系统所采集的大型数据集,并尝试模拟人类行为(如发现、判断、响应)的智能化运维管理平台。简单说,AIOps的核心价值在于,用AI取代人为决策,快速给出故障处理建议或提前规避故障。
让网络AI开发更简单,应用更高效
Gartner的数据显示,2020年,大约40%的企业引入了AIOps,尤其是在通信市场,运营商60%的投资都用于网络运维,年复合增长率高达16%。如此大的一块市场蛋糕怎能不让人心动?通信厂商、网络厂商、运维厂商都在向智能运维发力。如此看来,AIOps市场应该是一马平川,但实际上AIOps的应用效果在某些场景中并不如人们的预期。这又是什么原因造成的呢?
回顾AI的发展历史,当前这股AI热已经是AI的第三次浪潮。最初,人们对AI的期待值是非常高的,认为AI可以在很短的时间内、在很大程度上取代人工,这就是所谓的“AI速胜论”。但实际上,由于AI应用的技术门槛比较高,而企业又缺乏大批具有AI专业技能的员工,很多企业对AI的投入产出比不高,且数据准备不足,从而导致在AI应用上“眼高手低”,以致于又从“AI速胜论”走向了另一个极端,即“AI无用论”。
“AI的价值要通过AI算法与业务的匹配,以及反复多次的磨合,最终才能得以体现。”杨健表示,“华为AIOps的理念很朴实,就是要让网络AI开发更简单,应用更高效。”
以往,在AIOps项目的实施中,需要业务人员、AI工程师,有时还要加上数据工程师才能完成项目的交付,由此可见实施门槛之高。华为AIOps服务主要面向企业中那些拥有丰富运维经验,却缺乏AI背景的人群,帮助他们简化运维、提升效率、降低成本。
华为为什么有这种自信和能力?杨健解释说,华为拥有30余年的专业积累和通信方面的经验,其AIOps覆盖运维全流程,包括预测、检测、诊断、识别等多环节;零编码定制场景组合应用,可以有效降低开发门槛;强大的通信领域数据对接和治理能力,有助于提升数据开发效率。一句话,专业的人做专业的事。
从华为AIOps服务来看,它胜在四大关键能力,即数据管理能力、AI原子能力、编排能力,以及AI应用能力。正是这四大能力的强强组合,有效降低了AI开发的门槛。
首先,在数据管理层要解决的是数据质量不高的问题。华为AIOps的数据管理层从源头上提升客户的数据质量,通过预置数据采集治理能力,提供一站式的数据采集、解析、治理的基础工具,还能自动对接100多种主流的通信设备,同时具备高效的数据治理能力,以及智能辅助数据标注能力,为后续的AI算法提供了数据保障。
其次,AI原子能力是华为AIOps最核心的竞争力。华为多年来在电信业务领域的积淀,再加上对AI算法的打磨,形成了其独特的AI原子能力。在HDC.Cloud 2021大会上,华为不仅发布了20+AI原子能力,覆盖预测、检测、诊断、识别等网络运维全场景,还将其AI原子能力开放给合作伙伴和最终用户,实现共赢。
再次,编排能力的提升有助于降低AI的应用门槛。杨健举例说,运维场景灵活多变,例如某运营商省公司运维流程近万个,运维人员需要人工编码开发不同组网的AI应用,费时费力。华为AIOps提供零编码流程编排能力,面向不同场景,通过可视化拖拽式编排,大幅提升运维人员AI应用的开发效率。
杨健介绍说,华为AIOps提供了灵活的前台和后台编排能力,运维人员通过面板即可实时掌握网络的运维状况。另外,华为AIOps还提供RPA(机器人流程自动化),以完成跨系统的数据对接、数据搬运、工单发放、消息通知等,进一步提升企业运维效率,加速AIOps落地生产系统。
最后是开箱即用的APP,支持快速部署。通常情况下,开发各领域AI应用需要具备行业经验和AI算法经验,开发难度较大。华为AIOps提供了10+开箱即用的APP,可以帮助伙伴快速上手,轻松部署运行AI应用。举例来说,在网络的日常监控中,网络维护人员可以借助华为AIOps的KPI异常检测与分析APP,快速实现KPI的智能异常检测,进行异常隐患的预测,以及辅助故障定位,只需5步即可完成。华为AIOps的IT应用健康监控APP也只需5步即可实现日常的IT运维监控。
AIOps之所以受到越来越多用户的青睐,因为它给用户带来了实实在在的价值。杨健介绍说,以往运营商的核心网每次升级都会引起客户或多或少的投诉,从2020年开始,因为使用了华为AIOps,运营商的核心网升级实现了零投诉。其中,某运营商用户曾提前5个小时识别出核心网升级之后的故障,有效规避了用户投诉,提升了客户满意度。另一个例子,华为AIOps还被用于数据中心硬盘异常检测,能够提前14天预测数据中心硬盘故障。目前,华为AIOps已累计服务全球200家企业,监控的硬盘总数超过18万块,仅2020年一年便识别出4000+硬盘故障,确保了客户的数据安全。
AI只是一个工具
华为云是华为AIOps最可靠的底座,华为AIOps的算法、算力全部来源于华为云。华为云强大的综合实力通过AIOps智能运维服务得以充分展现。杨健表示,华为致力于将像AIOps这样的单点技术和服务能力,逐渐连成线,然后形成面,最终实现自动驾驶网络(ADN)的目标。除了不断提升自身的技术能力以外,华为还将努力打造并提升网络人工智能引擎(NAIE)这个大平台,让合作伙伴能够在此之上实现各种各样的AI应用,并从中获益。
华为十几年前便开始钻研AI,并将其投入到电信业务应用中,积累了丰富的实践经验。“让网络AI开发更简单,应用更高效,降低AI门槛,这是我们始终不变的方向和承诺。”杨健重申,“华为在网络AI方面最核心的竞争力就体现在算法的丰富上。华为的算法工程师遍布全球各地的研究所,并与全球众多知名的科研机构有着广泛合作,这为华为网络AI的快速持续演进奠定了坚实的基础。”
在电信领域,华为率先提出ADN的战略目标,并与运营商开展了广泛而深入的合作,现在其他友商也在积极跟进。华为的ADN覆盖端、管、云,并且将这种能力开放给合作伙伴。NAIE与AIOps都是ADN的其中一部分能力,它们共享一个AI平台。
现在,我们回过头来再看看随着运维智能化的快速发展,运维人员是否会失业这个问题。杨健给出的肯定答案是——不会!
AI的落地必须与业务适配并紧密结合在一起,所以智能运维还是要依靠人员丰富的业务经验。AI只是一种工具,通过它,运维人员可以锻造出自己需要的AI能力。以运营商为例,他们有上万个流程,业务的复杂程度可想而知,只有既懂运营商业务,又具有AI能力的人才能完成运营商网络运维这项艰巨的任务,AI只是提供了更加高效和便捷的工具和助力。“用AI为客户的运维赋能,让他们在AI之上完成更高级的任务,而重复的事务性工作就交给AI,这样才能事半功倍。”杨健如是说。