type
status
date
slug
summary
tags
category
icon
password
语雀宕机了
今天下午14:00开始语雀开始出现宕机,18:30还没有恢复,这应该属于P0级别的事故了。在朋友圈里看大很多语雀的用户炸锅了。
像语雀这种办公软件属于基础软件一旦产生宕机,产生的影响会非常大,最重要的是大家也会对他失去信心。
假如你今天就要交稿一个文章,正在语雀上写一半突然访问不了,也不知道写的东西还在不在,心态马上爆炸。
ChatGPT来背锅
虽然最近转到更好用的Notion上了,但我也是语雀的忠实用户,也冲了会员,语雀在国内做的还算是不错的,看到这种事还是比较难受的。
这种事情在阿里内部肯定要去进行事故复盘了,那么我们用ChatGPT来帮我写复盘文档把
四线复盘法
问题复盘的内容涵盖事实、分析、定责和改进4个部分。一次成功的问题复盘需要达成以下4个目标:
- 讲清楚事实:事实是复盘的基础。如果连事实都没有讲清楚就开始分析、定责和改进,无异于搭建空中楼阁,做得再漂亮也是没有意义的。
- 全面且深入地分析:首先需要保证没有遗漏问题,其次需要深入分析问题根因。否则,问题还是会以其他方式反复出现。
- 得出让各方心服口服的定责结论:需要有明确的定责标准,避免拍脑袋定责,或者按照级别和关系来定责。
- 制定可以落地的改进措施:避免提出一些虚头巴脑的措施,看起来高大上,实际上却不知道怎么落地,后续也无法跟踪。
这一讲分享的四线复盘法,通过时间线、问题链、责任链和改进线这4条不同的线索展开复盘,实现事实、分析、定责和改进这4个部分的目标。
第一条线:时间线
为了讲清楚事实,我们要明确时间线,也就是问题发生的经过,包括问题发现、问题处理过程中采取的各种关键措施、问题恢复的时间和问题影响的结果等。
其中,时间信息非常关键,因为它能够反映出问题发现速度、各项措施执行时间和团队响应效率等指标。比如,运维重启30台机器花了1小时,通常情况下这种处理效率肯定是有问题的。
第二条线:问题链
为了全面且深入地分析,我们要明确问题链,也就是问题的传导路径。
通常情况下,一个问题往往不是单一原因导致的,而是多个原因“碰巧”组合在一起所导致的。所以,分析整个问题的传导路径,才能全面地了解产生问题的过程。
第三条线:责任链
为了得出让各方心服口服的定责结论,我们要明确责任链,也就是问题责任人之间的关系。
我们需要结合时间线中问题影响的结果、公司的故障定级标准和问题链的分析,最终确定哪些团队或个人应该承担责任,分别承担多大的责任,接受什么样的处罚。
之所以叫责任链,是因为一个问题的发生往往是整个流程上多个环节相关的人处理有问题,才会导致最终问题的发生。比如开发人员引入bug,测试人员遗漏了测试,产品人员没有验收到,最终才会在上线后发现问题。只要有一个环节把握住了,问题就不会发生。
第四条线:改进线
为了制定可以落地的改进措施,我们要明确改进线,也就是问题的改进计划,包括具体措施、改进责任人和时间节点等。
ChatGPT写复盘文档
我把上述四线复盘法通过Prompt教给它,帮我产出一个复盘文档。
这个复盘文档就比较标准了,再补充一些细节就更完美了。ChatGPT分享链接
联系我
公众号:
微信:
- 作者:鹤涵
- 链接:https://www.hehanwang.com/article/yuque-down
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。