应急演练是检验、评估、提高运维组织可用性管理的一个重要手段,
通过模拟故障的发生,发现软硬件运行环境、系统架构、系统性能、应急预案、协作沟通、人员技能等存在的不足,并持续改进应急体系
错误的演练方案
- 非核心事件, 缺乏实际价值
- 方案陈旧
- 忽略了最容易出现的问题或最不容易出现的问题
分类
-
桌面推演
即导演随机出题,人员根据当前现状进行答题
考察大家对系统的熟悉程度和应急理论,也是很有必要的
优点:- 成本较低
- 覆盖广
-
模拟演练:
在测试环境进行演练 -
生产环境演练
常见演练内容
- 主备切换
- 随机关机或随机杀进程
- 中断某处网络
- 制造干扰(如插入错误数据,增大网络延迟等)
- bug演练(如增加某应用的连接数)
参演准备
- 应急手册
- 协调流程,通讯录等
- 演练记录
- 演练报告