定义与目的:事后总结是事故的书面记录,包含事故影响、缓解措施、根本原因及防重现后续任务;核心目的是记录事故、理清根源,关键是降低或避免事故未来重现的几率与影响。
事后总结的核心定位:SRE 避免事故重复、保障系统可靠的必要工具,记录事故影响、应对措施、根本原因及后续任务。
核心原则:坚持 “对事不对人”,聚焦问题本身而非指责,营造开放氛围。聚焦定位事故根本问题,不指责个人或团队;假设参与者均善意且基于当时信息做正确举动,避免因指责导致人员逃避总结; 必要性:SRE 负责的系统因功能迭代与规模扩大,事故难以避免;若无事后总结从事故中学习,事故可能随系统复杂度增加而倍增,最终影响用户,因此事后总结是 SRE 的必要工具。
书写标准:重要事故后团队必须撰写,基本条件包括用户可见宕机 / 服务降级达标准、数据丢失、on-call 工程师需人工介入、问题解决耗时超限制、监控未发现问题(人工发现);事故前明确标准,且受影响部门可额外提出撰写需求。
实践工具与流程:用 Google Docs(含公司内部模板)撰写,工具需具备实时协作(快速收集数据想法)、开放评论(众人提方案、完善细节)、邮件通知(联系他人协作)功能;
文化培育:通过高层参与、奖励机制、集体学习活动等,让事后总结融入企业日常。通过 “本月最佳事后总结”(每周新闻邮件共享)、Google + 事后总结小组(共享讨论总结与最佳实践)、事后总结阅读俱乐部(集体讨论过往总结)、“命运之轮” 活动(新 SRE 再现事故场景演习)等集体学习活动推动; 设立奖励机制,且奖励可体现在绩效考核中。
需要正式评审与发布:评审需确认灾难数据收集、影响评估完整、根源分析深入、任务优先级合理、过程共享至相关部门。
最后,总结文档在评审后在更大范围(如研发部门、内部邮件列表)传播,鼓励研发部分学习借鉴。
优化方向:通过调查问卷收集反馈,优化总结流程;用工具汇总大量事后总结,寻找共性模式;在模板中增加元数据(见附录 D)提升数据收集分析能力;计划引入机器学习,预测系统弱点、减少重复事故、辅助实时事故调查;Etsy 的 Morgue 工具(见注 4)可参考用于管理事后总结。
我们和Google SRE的不同的:
总结文档的分享方面【建议加入到部门级的阅读质量分析会中】。
考虑建利奖励机制,可以激发同事们对总结文档编写的积极性。