本书共二十一章,内容包括:SRE与DevOps的关系、实施SLO、SLO工程案例研究、监控、基于SLO的告警、消除琐事、简单性等。
在2016年,Google出版的第一本站点可靠性工程(SRE)书籍引起了行业的大范围讨论,当今生产环境服务运营意味这什么?为何可靠性方面的考虑是服务设计的基础?现在,编写上一本SRE畅销书的Google工程师们为我们隆重推出了本书,这是一本充满真实案例的实战参考手册,展示了如何在生产环境中运维SRE的原则和实践。
在这本全新的SRE工作手册中,提供的实践案例并不但源于Google的经验,还来自那些经历过SRE旅程的Google公有云的用户。值得注意的是,本书还包括Evernote、The Home Depot、纽约时报和其他公司总结的来之不易的第一手经验。
无论你所在公司规模的大小,都可以深入研究这本工作手册,通过学习尝试完善你们自己的SRE实践。
Betsy Beyer,Niall Richard Murphy,David K. Rensin,Kent Kawahara和Stephen Thorne是Google网站可靠性工程组织里曾经和现任的成员,他们的职责是关怀和护理Google的生产系统。