2010年,笔者有幸现场观摩了西部某区域性银行的容灾演练:“数据库系统瘫痪”和“数据中心发生火灾”两个场景演练全部在真实生产环境进行,演练时间加起来不过10分钟,恢复速度让包括笔者在内的现场人员惊叹不已。然而,更让笔者震惊的是2014年银监会的通告,该行应急恢复处置机制严重缺失,导致系统恢复工作进展缓慢,业务系统中断长达37小时40分钟,其间完全依靠手工办理业务。
这件事情促使笔者曾经思考过:哪怕企业的灾备体系建设完备、日常演练流畅,但企业真正的灾难恢复能力到底如何?企业又该如何评估自身的灾难恢复能力?
如何让企业的灾备系统不成为一种摆设,做到灾备建设心中有一杆秤?这是业界一直困扰和渴望解决的。如今,爱数提供了一种新思路,在业界率先将智能运维能力融入到灾备体系之中,为企业构建可见的可恢复能力打开了新局面。
过去几年里,类似该区域性银行的案例不在少数,空有灾备体系,面对灾难/事故却无能为力。
归根结底,业务变化所带来的复杂性与相对稳固的灾备体系逐渐不匹配。一方面,各行各业数字化转型和智能化升级,带来的是业务场景数量、形态都在发生急速变化,以一个股份制银行为例,其业务场景如今就超过300多个,类似因为疫情而兴起的云柜员场景,也在银行中迅速普及,新业务场景的井喷,带来着数据量激增和数据类型更加丰富,也意味着带来了新的灾备需求。
另一方面,企业的灾备体系一旦建立,往往是相对固定的,虽然也会有日常的一些演练,但是相比于动态快速变化的业务场景,已经建成的灾备体系乃至灾备思维却愈发难适应这种变化,企业灾备体系并不知道未来备份存储容量应该如何规划,也不知道灾备系统运行状态如何,更不知道新增任务最合适的策略和恢复风险评估。
过去,这些工作往往依赖于资深的灾备专家来完成。但显然,业务的快速变化以及专家资源的稀缺,使得大部分企业都面临着如何建立有效灾难恢复能力的挑战。爱数资深灾备专家常华直言,投入巨资的灾备建设,其核心诉求应该是灾难恢复能力,当前大部分企业都面临着灾备资源可监控但无法预测,灾备恢复能力水平难以评估、可恢复能力不可见等典型痛点。
而解决这些痛点的思路,就是将智能运维的理念、技术、方案引入到灾备体系之中,让灾备恢复能力的指标体系化,灾备运营更加智能化和可视化,彻底告别过去华而不实的“空中楼阁”建设现象。
智能运维的理念如今深深影响到数据中心的方方面面。
同样,把智能运维的理念、技术和方案纳入到灾备体系是否可行?爱数首先在业界做了尝试,将AnyRobot与AnyBackup进行紧密集成,为灾备体系融入了智能运维能力。AnyRobot是爱数开放、高效、经济的机器数据分析平台,其目的是在海量机器数据中挖掘出价值。
首先,爱数基于多年面向大型客户灾备建设的经验和积累的方案,对灾备体系中管理者、运维团队、审计人员等不同角色需求进行调研,了解不同角色的需求。爱数技术专家表示,高层管理者更加关注数据是否可用、灾备体系的建设成效如何,而运维团队则更加关注备份、容灾的一些具体的操作、状态和指标,爱数的AnyRobot增强灾难恢复解决方案基于这些需求基础上进行设计。
之后,针对爱数AnyBackup灾备环境,聚焦灾备恢复能力三个重要方面:灾备系统可用、灾备资源可用和可恢复能力,爱数进行详细的分析。例如,针对灾难恢复演练的分析,就极具价值,可以根据灾难恢复演练情况来分析企业相应的可恢复能力。
此外,爱数对灾备执行过程合规和灾备体系建设成效可视化两个能力进行增强,让灾备体系建设更加完善。爱数技术专家介绍,像灾备执行过程所有任务、管理员操作过程是否合规,将有助于进一步提升灾难恢复能力。
在这些基础上,爱数对于AnyBackup环境下灾备体系进行指标明细化,然后通过全面分析来帮助用户增强系统灾难恢复能力。
具体来看,爱数AnyRobot智能运维灾备解决方案从五个方面来彻底提升灾备恢复能力:
其一、实现了全面的基础设施监控,保障备份系统可用,包括CPU使用率、磁盘空间、读写状态等,可以全面、及时了解备份系统各种资源的基本情况。
其二、实现对备份的存储容量智能预测,避免资源储备不足,例如云存储、磁带、磁盘等,基于当前备份数据增长情况和剩余容量情况,管理员可以根据指标情况进行相应操作。
其三、实现备份任务监控分析,有效评估灾难恢复的风险,对比历史备份任务指标和可用备份资源,给出新建备份任务窗口、数据恢复风险评估等建议。众所周知,备份容灾任务一旦增多,在成百上千个任务中发现问题对于管理员是个极大挑战,而通过智能手段来洞察备份中的异常,及时给出建议,将极大提升灾备恢复能力。
其四、对备份系统的管理员操作行为审计,确保备份数据安全。像对备份系统用户登录监控、备份系统执行操作命令监控,及时了解操作情况和不合规情况。
其五、灾备体系监控大屏,积累多个行业大屏模板,形成灾备运营的可视化。这其中,爱数与国内领先的大数据BI厂商帆软合作,共同为用户构建灾备运营的可视化,让用户对于灾备体系状态一目了然。
总体来看,产业数字化和企业数字化转型在不断走向深入,业务连续性的重要性也日益突出,如何确保业务连续、提升用户体验,灾备体系的作用不可低估。面对数字化带来的新场景、新需求、新痛点,必须要有新思路、新手段、新方案来解决,而爱数将AnyBackup与AnyRobot紧密集成,的确是提供了一种新思路,为用户灾备恢复能力可见打开了新局面。面向未来,爱数的这种理念必然将惠及到更多行业用户之中,其解决方案有望发挥更大价值。