文章
张宁涛 发表于 2025-10-31 20:21:57
      这章聚焦于组织在面对系统故障时的应急响应策略,通过Google SRE(站点可靠性工程)团队的真实案例,揭示了“如何将每次故障转化为系统与团队的成长机会”。核心思想可以概括为:“不回避失败... (查看全文)
分类:
91 0
张宁涛 发表于 2025-10-31 20:17:28
拆解了Google如何通过科学的轮值制度保障全球顶级服务的可靠性,同时平衡团队压力与研发效率,对所有技术团队都有极强的借鉴意义。 (查看全文)
分类:
67 0
冯辉 发表于 2025-10-31 17:23:16
本章节目录:QPS 陷阱给每个用户设置限制客户端侧的节流(限流)机制重要性资源利用率信号处理过载错误决定何时重试连接造成的负载小结本章核心,主要通过规避过载出发,避免过载,是负载均衡策略的一个重要目标... (查看全文)
分类:
104 0
马文彬 发表于 2025-10-27 19:37:47
        车型曲线((SOC, Power)曲线)符合 “时间连续性” 假设,即正常充电过程中,功率与电量的变化模式不会突然断裂、数据趋势连贯,相邻时间戳的SOC 与 Power 值高度相关,属... (查看全文)
分类:
91 0
于震 发表于 2025-10-26 22:11:29
一、本章大纲1、理想情况2、识别异常任务:流速空值和跛脚鸭任务2.1异常任务的简单应对办法:流速控制2.2一个可靠的识别异常任务的方法:跛脚鸭状态3、利用划分子集限制连接池的大小3.1选择合适的子集3... (查看全文)
分类:
113 0
王娜 发表于 2025-10-23 17:13:35
10月23日        霜降      “九月中,气肃而凝,露结为霜矣。”这句出自《月令七十二候集解》的古语,精准地描绘了霜降时节的意境。当秋风渐起,白露转为寒露,再至霜降,天地间仿佛被一层薄纱覆... (查看全文)
分类:
102 0
马文彬 发表于 2025-10-22 19:13:09
一、理论     “ 时间连续性”假设是时间序列异常检测的核心前提。时间连续性指正常情况下数据模式不会突然改变,这种连续性在不同数据中表现迥异:时间序列数据(如传感器监测数据)的连续性极强,相邻数据点... (查看全文)
分类:
127 0
吴杨雅辉 发表于 2025-10-17 11:27:28
一、监控系统的诞生与核心架构    Borgmon诞生于Google服务规模急剧扩张的背景下。传统的基于主机和静态阈值的监控方式无法应对动态、大规模的集群环境,亟需一个能自动发现、采集和处理海量指标的... (查看全文)
分类:
131 0
张玉繁 发表于 2025-10-16 10:28:22
第七章 Google的自动化系统的演进 一、自动化在 SRE 工作中的定位 对于SRE而言,自动化是一种力量倍增器,但不是万能药。当然,对力量的倍增并不能改变力量用在哪的准确性: 草率地进行自动化可... (查看全文)
分类:
162 0
吴召旺 发表于 2025-10-15 14:16:57
分享人:吴召旺,共同学习《SRE Google 运维解密》第六章 “分布式系统的监控” ,结合其中对监控本质、方法与实践的深度剖析,以及特来电等实际案例的对照,对分布式系统运维中的监控体系构建有了更系... (查看全文)
分类:
143 0


意见反馈