60天共读一本书之《SRE: Google运维解密》第一二章读书感想_话题

60天共读一本书之《SRE: Google运维解密》第一二章读书感想

2025-10-03 08:17:25
0
160

根据小组内部的分工,阅读了这本书的第一二章,并在SRE会议上进行了内容分享。以下是对一些印象比较深的点的一些感想:

关于作者及译者:都是在Google SRE团队工作多年的人,特别译者竟然也是有多年Goole SRE工作经验的人,这本书靠谱。

关于SRE的核心方法论:“确保长期关注研发工作:SRE团队被要求将大部分时间(通常为50%)投入到软件工程和自动化项目中,以减少手动运维(琐事),实现系统自治。”这点上, 原来也意识到开发工具解决重复性运维问题是必要的,这次从书中得到了相同的观点,且书中明确提出了最低研发占比。这个比例比预想的要高。书中也提出了如果无法保证50%研发占比的解决方法:协调业务开发工程师暂时负责部分运维工作,而且这个措施能加强SRE工程师和业务开发工程师的交流。

关于SRE的核心方法论:“在保障服务SLO的前提下最大化迭代速度:通过引入错误预算(Error Budget) 这一关键概念,量化了服务可接受的不可靠性。这和我们目前的工作模式一致,错误预算,就是我们目前的1-SLA,既最多可容忍的不可用时间。具体的执行策略“只要错误预算未耗尽,就鼓励快速发布和创新;一旦耗尽,则必须暂停发布,优先修复问题以重建可靠性。” 这和我们目前还是有一定差别,特别是“一旦耗尽,则必须暂停发布,优先修复问题以重建可靠性。”部分,这一点按我们的实际情况可能很难做到。

关于SRE的主要职责:

  • 监控系统:建立有效的监控和告警机制。
  • 应急事件处理:负责on-call(值班)和事故响应。
  • 变更管理:安全地管理发布和部署。
  • 需求预测和容量规划:确保系统有足够的资源。
  • 效率与性能:持续优化系统资源利用率和性能。


以上几点我们都已涉及,在变更管理和需求预测和容量规划部分有差异,变更和发布目前我们是研发团队负责。而需求预测和容量规划只有部分SRE参与。个人感觉我们目前的流程更适合我们的实际场景。




评论
此内容暂不接受评论!


意见反馈