如果要评选世界上压力最大的工作,那么运维管理估计会大概率的入围。
人们形容运维人的工作日常:不是在解决问题就是在解决问题的路上。以至于运维人自己也感叹干的工作是操着卖白fen的心、赚着卖白菜的钱……
运维工作有多难?来通过一个真实案例直观感受一下。
某大型汽车集团,在全球汽车行业排名前列,不仅部署了Tivoli、SAP、EP、SDAP等众多软件,还应用了Zabbix等诸多开源软件;随着云计算的普及,该集团还将部分业务部署在公有云之中。数据量庞大且类型丰富,复杂的多云环境,繁多的监控运维工具,超级多的无效运维事件,让该集团运维工作挑战巨大,运维人员日常工作中如坐针毡,“惶惶不可终日”。
类似情况在其他企业比比皆是。同为打工人,运维人不该被这样对待。如何改变这种局面?近年来,智能运维异军突起,成为解救企业和运维人员的及时雨。
智能运维,即通过结合大数据和机器学习等相关技术,以数据采集与分析各种数据支持所有主要的IT运营功能,将彻底改变过去传统运维的种种诟病,被认为既是解放运维人员的救星,也可为众多企业的数字化转型保驾护航。
在当下,很多企业经过多年数字化建设,通过整合监控与告警、与ITSM集成、自动化运维,基本建成了包含“监控、管理、控制”三大维度的运维体系。但这种典型的传统运维体系却是大而不强、全而不准。
究其原因,它是时间的产物,伴随着企业数字化建设的进程而逐渐搭建起的,缺乏顶层设计和全局视角,更像是众多工具与产品的堆砌。由于底层数据并未彻底打通,导致工具与工具、方案与方案彼此之间并不存在强逻辑联系,依然是以“各自为政”为主。
以监控维度为例,在运维界有句老话:监控先行。整个集中监控体系的构建,从最早的网络管理,到后续的数据库/数据库管理、存储/服务器管理,再到之后的虚拟化/云管理,才逐渐形成集中监控体系,通过不同的监控工具来实现这些平台的实时告警查看和平台优化建议。但现实中,这种监控体系却无法覆盖与打通链路监控(Traces)、指标监控(Metrics)和日志监控(Logs)全部运维数据,不能构建起面向业务自上而下的监控全覆盖。
监控体系自身尚且如此,监控与管理、控制之间就更缺乏全链路的联动。这些情况直接导致了当前很多企业在运维上面临着运维数据范围不足、告警泛滥、根因分析定位难、缺少全链路联动分析等情况。
首先,企业数字化转型的进程中,面临着IT环境日趋复杂、应用大量增加、设备种类繁多等情况。Gartner就预测设备和应用程序所产生的数据量正以每年2-3倍的速度增长,且数据类型多样。另一方面,业务和环境的复杂性也让运维对象、数据与指标覆盖不足,运维数据范围不足造成故障发生前缺少健康度洞察,难以提前预测故障事件。
其次,大量设备与应用,各种各样的监控工具,让监控对象条目过多、告警数量多造成当故障事件发生时,告警泛滥,误报、漏报情况严重,难以实现精准告警。更加致命的是,故障事件发生之后,基于告警的机制很难有效定位问题,缺少调用链信息,难以定位到服务和请求类的根本原因。
另外,业务依赖关系复杂也造成了整个运维缺少全局运维视图,跨多系统的运维无法联动,单业务系统内部的服务调用请求难以分析。
“传统运维是建立在CMDB的基础之上,CMDB自身的限制性、时效性、可维护性、复杂性等决定了其无法给运维人员呈现不同运维工具之间的监控关系。”爱数运维技术专家透露道。
因此,智能运维开始呼之欲出,也即现在流行的AIOps。Gartner认为,AIOps将跨平台的数据链进行打通与集成,通过机器学习和大数据等技术,让运维获得主动、个性化和动态的洞察力,从而支撑起所有IT运营的功能。Gartner并预测到2022年,有40%的大型企业将会进行部署AIOps平台。
智能运维虽好,却也有一个很现实的问题,即全球没有一家公司的产品可以覆盖全部数据范围来帮助用户构建智能运维中心。借助生态的力量,厂商与厂商在产品、技术以及方案层面的打通与联动就成为当前智能运维最重要的发展方向。例如,爱数与听云在今年的战略合作就开启了智能运维方案打造的新思路。
爱数与听云在智能运维领域开启了新模式。今年1月份,双方携手正式推出了智能运维整合方案,旨在帮助客户全面管理、深度洞察海量、多源、异构的机器数据。
具体来看,中国用户对于这种智能运维整合方案需求更加迫切。中国企业的业务规模性和复杂性在全球无出其右,带来了对于日益主动的IT运营、更加细化的成本优化目标和质量期望、更加快速的故障响应与处理、更加稳定的业务持续性等运维需求。
在双方的整合方案中,爱数聚焦在智能运维领域多年,拥有深厚的技术积累和丰富的实践经验,其AnyRobot是一款开放、高效、经济的机器数据分析平台;而听云是国内唯一一家连续多年入选Gartner APM魔力象限的厂商,主要聚焦在应用性能管理和用户体验优化。
爱数AnyRobot主要聚焦指标监控(Metrics)和日志监控(Logs)数据,而听云智能监控产品主要聚焦链路监控(Traces)、指标监控(Metrics)数据,双方联合方案则实现了全方位接入企业各维度机器数据,可以全方位提高客户运维效率,驱动组织业务运营创新。
例如,该智能运维整体方案可以实现日志溯源与智能分析,通过运维数据间开放集成,AnyRobot实时采集业务应用及其底层基础设施的日志数据,与听云APM应用性能监控数据进行开放共享,对用户业务系统的机器数据进行统一管理。在运维故障分析过程中,可直接追踪事件发生过程,一键定位故障根源,确保业务运营高效运行,并提供端到端的完整应用性能优化方案,提升用户体验。
另外,该智能运维整体方案还可以对配置的日志告警数据和性能监控数据进行综合分析,避免重复告警;并增加智能告警算法,根据告警历史数据进行智能检测,从而提高告警准确性,缩短故障发现时间、减少误报漏报、提升故障修复效率。
与此同时,除了监控之外,爱数与听云产品的开放性,也保证了解决方案可以跟ITSM和自动化运维平台之间进行打通与联动。
某种程度来看,爱数与听云走到一起,就是在帮助用户打通过去传统运维的种种“壁垒”,让运维数据、工具、平台可以实现打通与联通,让运维真正成为一盘棋。与此同时,双方合作也揭示运维平台未来的发展趋势。
随着大部分企业数字化转型的不断深入,业务数字化程度不断提升,运维所面临的复杂性、多样性将会只增不减。由于运维所涉及的相关领域与内容实在是太过于广泛,未来也不能一家公司就可以彻底搞定,所以在业务复杂性不断提升的趋势下,运维平台走向开放、高效与经济乃是大势所趋。
以爱数AnyRobot机器数据分析平台为例,其产品从设计开始就聚焦了开放、高效、经济三个核心特征。
在开放性方面,爱数AnyRobot采用了创新Hub架构,实现多源异构数据、多机器数据平台的统一纳管,可以让用户具备更多机器数据接入的能力,同时机器数据接入之后,实现统一的机器数据分析平台和通用的数据消费能力。
开放性给运维带来何种好处?举个例子,金融、电信、能源、互联网等行业的众多用户,在底层数据分析平台上采用了开源数据分析平台ELK或商业数据分析平台Splunk,并且运行多年,与各个业务捆绑紧密。随着技术的发展,安全审计等的要求,仅仅依靠ELK或者Splunk已不能完全符合用户的真实需求,爱数AnyRobot的Hub架构让与ELK、Splunk等共同服务用户的机器数据的采集、存储和分析。
此外,在高效层面,爱数AnyRobot还采用了小程序架构,让用户更好地获取应用分析App的能力;在经济层面,爱数AnyRobot采用了存算分离架构,实现计算与存储分离,同时计算可以实现完全的弹性扩展,最大限度的为用户节省各种资源。
从长远来看,开放、高效、经济的运维平台也是最符合企业用户对于运维的要求。未来,随着企业数字化转型的深入,以及像爱数、听云这些中国智能运维厂商利用生态不断完善联合解决方案,中国用户有望得到更加出色的智能运维产品与服务。