起飞就起飞

SRE学习

Posted on By baixiao

最佳实践

如何报警

白盒监控

黑盒监控

完全依赖白盒监控,就意味着我们并不知道最终用户看到的是什么样。例如:白盒监控只能看到已经接收到的请求,并不能看到由于DNS故障导致没有发送成功的请求,或者是由于软件服务器崩溃而没有返回的错误。同时,报警策略也只包含了工程师能想到的错误情况。

Google SRE团队通常利用探针程序(prober)解决了该问题。探针程序使用应用级别的自动请求探测目标是否成功返回。探针程序既可以直接探测前端,也可以探测负载均衡服务后面的服务。通过对两种不同情况的探测,我们可以发现局部问题并且消除无效报警。

即可以对外部API和内部使用API分别做探针。

有效的故障排查手段

值得警惕的是,理解一个系统应该如何工作并不能使人成为专家。只能靠调查系统为何不能正常工作才行。——Brian Redman

系统正常,只是该系统无数异常情况下的一种特例。——John Allspaw