🗺️语雀宕机补偿,赠送半年会员!
00 分钟
2023-10-24
2023-10-27
type
status
date
slug
summary
tags
category
icon
password
大家好,我是鹤涵。

官方复盘

不出所料,今天语雀发了23日的故障复盘。复盘用的方式就是时间线+改进线的方式。
补偿方案是免费赠送了半年的会员,可以直接去语雀领取。
 
notion image

故障总结

一个99.9%可用性的系统,在一年内它可能会宕机大约8.76小时,这次7个小时的宕机三个9都快保不住了。
 
问题分析:
99%的故障来自变更一点不假。
总结来说就是语雀使用了一个新的运维工具,但是工具有问题把重要的服务器搞挂了,而且无法回滚。
所以需要重新恢复大量数据+数据验证,导致整个流程耗时非常长。
 
改进措施:
  • 快速回滚:上线前一定要想好快速回滚方案尤其是用户众多的大型c端系统系统。
  • 高可用架构:增加数据副本保证宕机可以平滑切换
  • 灰度发布:可以先灰度发布少量机器,持续观察监控报警,保证没问题再全量发布
 
不懂技术看不懂没怎么办? 没关系,我们用GPT4+Webpilot插件来分析官方公众号文章。
notion image
GPT4的回答:
notion image
 
 

联系我

AIGC交流群
notion image
微信:
notion image
 

评论
Loading...