新TCIS “容灾演练”圆满成功

2023-08-22
 为了进一步落实集团的信息安全要求,验证新TCIS容灾系统的建设成果,确保生产端与容灾端数据的一致性,提高企业突发事件的应急处置能力,卓锐智高(武汉)科技有限公司于2023年8月19日晚22:00至23:30成功的在30分钟内从生产环境数据库切换到容灾数据库,并恢复业务系统,数据“零”丢失。观察灾备数据库运行20分后,10分钟内回切生产环境,数据“零”丢失。整个容灾切换演练获得了圆满成功。

 

      本次演练以新TCIS东莞环境为主,通过应用集群和数据库RAC集群的本地高可用实现,有效规避了单点风险。应用基于一套核心的Oracle数据库,将所有IDC业务整体切换到备库,并最终切换回原生产库进行容灾演练。
      为了确保企业业务的正常开展,此次演练选择在夜间22:00进行,并邀请了桐乡、威海、韶关、新都、长春等企业一同参与,共同验证容灾数据库的一致性和系统的可用性。此次演练的目标是验证新TCIS容灾系统的可靠性,恢复时间目标(RTO)≤30分钟,恢复点目标(RPO)=“零”数据丢失,并优化应急演练流程,以保障业务的稳定持续运行。
      演练开始前,技术支持部、客户服务部、开发管理部等相关部门合力制定了完整的应急方案和人员部署计划。我们检验了备份端数据库的可用性、数据一致性以及高可用的接管和回切的能力。2023年8月19日22:00,所有参与演练的人员就位,技术人员完成了切换前的检查工作。
      正式开始演练后,我们模拟了一个数据库故障的情况。以下是演练过程的回顾:
 

 

1) 2023/8/19 22:03—22:08,第一个企业拨打卓锐热线400-160-1862,报告TCIS 3.0系统无法登录。随后桐乡、西南、威海的企业也报告了同样的问题。热线中心立即上报客户服务部总监,并同时通报技术部门。
2) 2023/8/19 22:08—22:13,问题依然存在,诉求升级,上报给分管副总。
3) 2023/8/19 22:13—22:33,技术部门判断为数据库故障,无法在30分钟内快速恢复业务,诉求升级,上报总经理。
4) 2023/8/19 22:33—22:45,总经理收到上报后,了解了故障的影响范围、程度和技术解决方案。为了确保业务尽快恢复,总经理批准了"切换容灾"的建议。切换容灾预计耗时10分钟。
5) 2023/8/19 22:45—23:00,备库切换成功后切换应用节点,15分钟逐渐切换完成。
6) 2023/8/19 23:00—23:20切换容灾备库运行20分钟,系统运行正常,检查数据库“零”数据丢失。
7) 2023/8/19 23:20—23:30回切数据库到生产环境,同时切换应用节点。所有企业反馈系统登录正常,运行速度流畅。
      此次演练严格按照公司应急预案手册及演练步骤进行。演练的目的是验证容灾数据库的可用性和一致性,同时优化应急演练流程,以确保业务的稳定和持续运行。通过本次演练,我们增强了公司各部门在处理突发事件时的配合度和熟悉程度,并验证了卓锐智高的应急响应能力、灾难恢复能力、容灾切换能力以及热线、区域经理和技术员在应对突发事件时的处理能力。这次演练为公司信息安全防线的进一步巩固打下了坚实基础。