应急演练

应急演练

应急演练是检验、评估、提高运维组织可用性管理的一个重要手段,
通过模拟故障的发生,发现软硬件运行环境、系统架构、系统性能、应急预案、协作沟通、人员技能等存在的不足,并持续改进应急体系

错误的演练方案

  1. 非核心事件, 缺乏实际价值
  2. 方案陈旧
  3. 忽略了最容易出现的问题或最不容易出现的问题

分类

  1. 桌面推演
    即导演随机出题,人员根据当前现状进行答题
    考察大家对系统的熟悉程度和应急理论,也是很有必要的
    优点:

    1. 成本较低
    2. 覆盖广
  2. 模拟演练:
    在测试环境进行演练

  3. 生产环境演练

常见演练内容

  1. 主备切换
  2. 随机关机或随机杀进程
  3. 中断某处网络
  4. 制造干扰(如插入错误数据,增大网络延迟等)
  5. bug演练(如增加某应用的连接数)

参演准备

  1. 应急手册
  2. 协调流程,通讯录等
  3. 演练记录
  4. 演练报告
Licensed under CC BY-NC-SA 4.0
转载或引用本文时请遵守许可协议,知会作者并注明出处
不得用于商业用途!
最后更新于 2023-05-03 00:00 UTC