【读书活动感悟分享】《SRE Google运维解密》第三章-拥抱风险

发表于 2025-09-29 14:59:40

管理风险
将运维风险与业务风险对应起来，把资源用在对业务最关键的系统上
度量服务的风险
时间的可用性：可用性=系统正常运行时间/（系统正常运行时间+停机时间）应用与云平台SLA计算规则
可用性目标为99.99%的系统最多在一年中停机52.56分钟，就可以达到预计的可用性目标
合计可用性：可用性=成功请求数/总的请求数，应用与云平台的功能可用性降级规则
服务的风险容忍度
消费者服务的风险容忍度
可通过市场定位、收入模式等判断容忍度
基础设施服务的风险容忍度
面向众多上层业务，需求多样，往往需提供多级服务质量；其风险容忍度更难统一，需要通过细分场景（如前端反向代理、存储等）分别评估。
成本-收益
冗余资源、机会成本之间做经济性权衡，避免过度设计。
使用错误预算的目的
为研发与 SRE 提供一个双方都认可的客观指标
好处：错误预算的主要好处就是它能够激励产品研发和SRE一起找出创新和可靠性之间合理的平衡点。

总结感想
通过拥抱风险这个章节的介绍，作为 SRE的一员，从中得到一些收获及对此前工作的深入理解，最大的收获是学会用量化风险的方法去评估平台的可靠性，就像针对可用性指标设定合理的量化值，就如对核心业务做业务受损的检测，通过具体的量化指标反向平台的的稳定性；也可以用量化值去管理风险：针对核心服务的调用成功率，可以通过不同维度去设置容量，容量剩余越少，说明服务的可靠性越差，云平台也可以从这个方面着手去做一些风险管理，这样能更好的去管理风险，也对云平台的全年的SLA做一个管控。
平台的运行也要在成本和收益之间做平衡，系统不能只追求极致可用性导致资源浪费，在预算内保障平台的稳定运行就要做好容灾、降级、自动化运维等方案，防止故障大面积扩散，把影响降到最低，做好这些工作的前提还是要把监控系统、问题自动分析能力做的尽可能完善，这样可以保证故障快速定位快速恢复，接下来的工作还是要在核心业务功能上做更多的场景验证。

188 0

上一篇：【读书活动感悟分享】《SRE: Google运维解密》：稳步启动，逐步推进

下一篇：【读书活动感悟分享】《SRE Google运维解密》第四章与第五章读书心得

登录 | 注册