
管理风险
将运维风险与业务风险对应起来,把资源用在对业务最关键的系统上
度量服务的风险
时间的可用性:可用性=系统正常运行时间/(系统正常运行时间+停机时间)应用与云平台SLA计算规则
可用性目标为99.99%的系统最多在一年中停机52.56分钟,就可以达到预计的可用性目标
合计可用性:可用性=成功请求数/总的请求数,应用与云平台的功能可用性降级规则
服务的风险容忍度
消费者服务的风险容忍度
可通过市场定位、收入模式等判断容忍度
基础设施服务的风险容忍度
面向众多上层业务,需求多样,往往需提供多级服务质量;其风险容忍度更难统一,需要通过细分场景(如前端反向代理、存储等)分别评估。
成本-收益
冗余资源、机会成本之间做经济性权衡,避免过度设计。
使用错误预算的目的
为研发与 SRE 提供一个双方都认可的客观指标
好处:错误预算的主要好处就是它能够激励产品研发和SRE一起找出创新和可靠性之间合理的平衡点。
总结感想
通过拥抱风险这个章节的介绍,作为 SRE的一员,从中得到一些收获及对此前工作的深入理解,最大的收获是学会用量化风险的方法去评估平台的可靠性,就像针对可用性指标设定合理的量化值,就如对核心业务做业务受损的检测,通过具体的量化指标反向平台的的稳定性;也可以用量化值去管理风险:针对核心服务的调用成功率,可以通过不同维度去设置容量,容量剩余越少,说明服务的可靠性越差,云平台也可以从这个方面着手去做一些风险管理,这样能更好的去管理风险,也对云平台的全年的SLA做一个管控。
平台的运行也要在成本和收益之间做平衡,系统不能只追求极致可用性导致资源浪费,在预算内保障平台的稳定运行就要做好容灾、降级、自动化运维等方案,防止故障大面积扩散,把影响降到最低,做好这些工作的前提还是要把监控系统、问题自动分析能力做的尽可能完善,这样可以保证故障快速定位快速恢复,接下来的工作还是要在核心业务功能上做更多的场景验证。