天极大咖秀

登录 | 申请注册

AnyRobot加持,爱数实现灾备体系的智能运维

于洪涛 2021-08-17 阅读: 6,069 次

洪水、台风、火灾、泥石流……,今年以来频繁发生的自然灾害,让我们在对大自然多了一分敬畏的同时,也在思考应该如何加以应对。

对于IT人而言,这份考验的分量要更重一些,因为IT已经成为企业的关键基础设施,而数据则成为核心生产资料,一旦受到影响无法正常工作,就会带来非常严重的后果。

此时,灾备的重要性就突显出来了。而对于投资巨大的灾备系统来说,要想在关键时刻真正发挥作用,日常的运维至关重要。

为此,作为大数据基础设施提供商的爱数,推出了AnyRobot智能灾备运维解决方案,AnyRobot与AnyBackup一起工作,实现了灾备系统的智能运维和可视化。

 0

 

灾害频发下的灾难恢复能力

7月20日下午,郑州小时降雨量达到历史峰值,给诸多单位带来了灾难性的影响。在此紧急状况下,如何保证数据基础设施可用,进而让业务能够正常开展,成为很多企业的最大挑战。

郑州大学第一附属医院也受灾严重,其老院区——河医院区因淹水而停电,位于其间的机房数据中心受到牵连。此时,郑大一附院建成不久的同城异地“双活容灾”系统,发挥了关键作用,仅用15分钟就将主要临床核心业务迁移到郑东院区机房,在困难时期最大程度地保障了临床诊疗有序进行。

除了像郑州这样遭遇突发自然灾害,勒索病毒等人为意外因素等也会严重影响企业的数据安全,从而给企业数据的灾难恢复能力带来很大的挑战。

对于企业而言,灾难恢复能力是由三个部分组成的:灾备系统可用、灾备资源可用、可恢复能力。每个部分都不可或缺,否则就会导致灾难恢复能力下降,比如存储资源满了无法备份、CPU能力不足备份很慢、备份对网络资源占用过多影响业务运行等。同时,也需要灾备运营体系做保障,通过日常运维管理、工具、演练等,保证企业的灾难恢复能力。

然而,要想提升企业的灾难恢复能力,还面临着很多难点,比如灾备资源可监控但无法预判、灾难恢复能力水平难以评估、可恢复能力不可见等。要解决这些问题,企业就需要做到智能灾备运维,实现灾备运营可视化,建立灾难恢复能力指标体系。

111

智能运维满足更高灾备需求

当下,灾备系统已成为企业的关键基础设施之一,用以保证业务的连续性。“双活”、“两地三中心”等灾备模式,已经在金融、医疗、交通、政府各行各业得到普遍应用。

在灾备系统的建设和运营过程中,我们也会发现,除了IT部门的员工,企业的高层管理者和审计人员,也对灾备体系的运维提出了自己的要求。比如,高层管理者关注灾备体系的建设成效,了解灾备数据的可用性;审计人员则关注备份任务操作是否合规,并且要对备份系统的安全进行审计。

目前,爱数的AnyBackup灾备体系解决方案,已经在为很多大型客户提供服务,覆盖规划、建设、运营等全生命周期。然而,要满足高层管理者和审计人员的需求,仅靠AnyBackup是无法实现的,此时爱数AnyRobot正可以发挥关键作用,为灾备体系带来智能化和可视化要素,两者相互配合构成了爱数的智能灾备运维解决方案。

在爱数的智能灾备运维解决方案中,AnyBackup位于底层,实现数据从生产环境的定时备份,并在应急时进行数据恢复;AnyRobot位于中层,对AnyBackup 指标明细进行分析,实现备份任务分析、备份系统状态监控、备份系统安全审计,从而增强系统灾难恢复能力,并满足审计人员的需要;顶层则是灾备体系监控大屏,通过与国内领先BI厂商帆软合作,为高层管理者带来灾备运营的可视化呈现。

这样,AnyBackup、AnyRobot、帆软,如同一部汽车的发动机、仪表盘、显示屏,各司其职,相互配合,帮助企业的灾备体系实现智能运维。

222

独一无二的爱数智能灾备运维

有了AnyRobot的加持之后,爱数智能灾备运维方案能够带来独一无二的深度集成分析,满足各类企业客户对于数据安全的需求,进而保障业务的稳定运行。

综合来看,爱数AnyRobot智能灾备运维解决方案,具有五个方面的亮点:

一是全面的基础设施监控,保障备份系统可用。基于日志数据和指标数据的监控,实时监测系统运行状态,对CPU使用率、内存使用率、根分区使用率、磁盘空间、IOPS、读写速率、读写耗时、网络流量等进行全面监控。

二是备份的存储容量智能预测,避免资源储备不足。基于历史数据,通过算法拟合,预测剩余空间、容量增长等,实现备份的存储容量可预测。无论云存储,还是磁带、磁盘,都可以实现容量可用时间预估、提前预警。

三是备份任务监控分析,有效评估灾难恢复的风险。通过定时数据保护任务统计、持续数据保护任务统计、CDM备份任务统计、备份管理员操作行为审计,对比历史备份任务指标和可用备份资源,给出新建备份任务窗口、数据恢复风险评估等建议,从而实现备份和恢复任务的风险评估。

四是备份系统的管理员操作行为审计,确保备份数据安全。通过备份任务操作合规审计、

系统登录和执行命令操作审计,来保证安全合规。

五是灾备体系监控大屏,累积多个行业大屏模板,形成最佳实践。其内置了国内最好的帆软大屏,可自定义大屏展示,实现动态交互和多屏自适应,为企业高层管理者提供可视化的呈现,进而为业务决策带来数据支持。

随着千行百业数字化转型步伐的加快,提高容灾能力、保持业务连续性,成为在此进程中的核心议题之一。

AI技术应用的普及,则会给灾备体系带来更多的智能运维要素,保证灾备系统的事先可预测、平时可监控、关键时刻发挥作用,进而为企业的核心业务运行提供基础保障。

于洪涛
科技智库领域优质创作者

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)