故障与解决决策分析 | 2025-05-10

2 min

故障与解决决策分析

作为一名技术管理leader,经常要面对一些线上故障,此时就需要快速做出决策或者向上反馈。

最开始经常力不从心:

  • 1)面对故障很多时候只会被动等待。
  • 2)面对有限的信息作出错误决策。
  • 3)向上反馈时,被老板问到哑口无言。
  • 4)故障修复后,再次出现。

今天就来复盘下,几次故障中得到的经验,整理出后续面对故障必须要确认的信息,以及决策的原则。

当然这里要明确的是,故障应该以优先恢复用户故障为目标。

当前适合的场景为:服务异常,无法快速修复、修复需要用户配合、需要负责人介入的情况。

  • 短链域名过期/更换域名的问题
  • 语音呼叫异常,临时补丁后恢复,需要后续排查,但有影响到用户的风险
  • 离线任务预付费用户上传Excel解析异常,需要用户配合操作。
  • 国际短信部分短信回执超时,需要修复

需要确认的信息:

  • 预估,故障影响的用户数,已经是否有重点客户。
  • 对用户业务的影响
  • 用户体量和发送量
  • 故障定位、历史故障、应急预案