【读书活动实用案例分享】《SRE: Google运维解密》:黑盒监控在特来电充电云平台的实践_文章

【读书活动实用案例分享】《SRE: Google运维解密》:黑盒监控在特来电充电云平台的实践

吴召旺
发表于 2025-11-14 14:41:20

读完《Google SRE 运维解密》后,书中关于 “监控系统要聚焦用户可见状态” 的理念一直让我印象深刻。平台技术部 - 运维保障团队参与特来电充电云平台独立部署和混合部署项目数十个,真正地把黑盒监控从理论落地到实际应用场景中,实现了它的价值。它极大程度上解决了我们多项目并行时 “环境存活状态两眼摸黑” 的痛点。


​从 2023 年起,云平台中心便开始扩展海内外的充电云平台市场,承载着全国诸多地市的充电服务后台管理、数据统计与用户服务。到目前,线上运行的项目就有数十个,个别项目又分为生产和测试环境,算下来需要监控的域名比项目要多得多。​此前我们主要依赖白盒监控(比如服务器 CPU、内存使用率),但经常出现 “服务器指标正常,用户却打不开页面” 的情况 —— 比如成都天投混合云项目,因为公网带宽欠费导致环境入口无法访问,我们实际排查的时候却发现各项服务监控指标运行正常。这让我们意识到 “只看内部指标,不看外部访问体验” 的监控模式存在严重漏洞。​参考《Google SRE》中 “以用户视角验证服务可用性” 的思路,我们实际应用了黑盒监控,核心方案是基于 Prometheus 部署 blackbox-exporter。


​具体落地时,我们先在钉钉文档中梳理了所有环境的域名清单,按重要性对项目进行分级:比如海外 SaaS 生产环境、四川蜀道、Ionchi 等。针对不同的项目和不同的重要级别,配置了探测规则:每 15 秒对系统运行有重要影响的接口进行探测。​监控维度上,我们重点关注两个核心指标:​

一是 HTTP 响应码,通过 blackbox exporter 模拟用户请求,当连续 3 次返回非 200 的错误时,系统会自动触发告警,告警信息会同步推送钉钉预警群,确保运维人员第一时间知晓问题;​


二是 SSL 证书过期时间,之前曾因某项目证书过期导致用户无法访问,这次我们通过监控配置,不需要访问网站就可以看到证书的过期时间,而且当证书剩余有效期过短时,系统会每天发送一次钉钉提醒。​




黑盒探测上线后,效果超出预期。比如今年海外 SaaS 生产环境,因华为云高防服务导致系统无法访问,黑盒监控在故障发生 1 分钟后就触发了告警,运维人员几乎没有耗费太长时间就定位到华为云的问题。另外,通过 SSL 证书过期监控,我们已提前预警并更新了几十个即将过期的证书。​现在回头看,黑盒监控的价值不仅在于 “发现问题”,更在于它让我们的运维思路从 “关注服务器状态” 转向 “关注用户体验”—— 这正是《Google SRE 运维解密》中强调的 “以用户为中心” 的运维理念。未来,我们还计划在黑盒监控中加入页面加载时间、接口响应延迟等维度,进一步提升监控的精准度,为特来电用户提供更好的服务。



85 0

评论


意见反馈