SRE实践白皮书v1.0.1.pdf

1 SRE整体介绍
1.1前言
Google在2003年启动了一个全新的团队——“SRE团队”,该团
队旨在通过软件工程的方法提高应用系统的可靠性;随着SRE相关理论和实践在Google的日臻成熟,SRE实践也从Google慢慢地扩散到了整个行业。自从SRE的理念进入中国以来,就已经引起了很多企业的关注和效仿,但各企业实施SRE的方法各异,SRE的实现效果也各不相同。与此同时,中国的互联网行业中涌现出了一批对SRE充满热情的倡导者,他们为社区做出了各种贡献;包括:孙宇聪翻译出版了《SRE:Google运维解密》、赵成在极客时间开设了课程《SRE实战手册》,以及赵舜东在社区里积极地布道分享等等,不胜枚举。
2022年,由赵成等人牵头,首批来自于互联网、运营商、金融等行业领军企业的SRE团队负责人齐聚一堂,组织了SRE研讨社区,定期开展社区分享活动,共同探讨SRE在各企业里的发展路径,分享各自的实战经验,并总结出了这份来自一线实战的、详实而持续更新的《SRE实践白皮书》。社区每年都吸纳新的成员,逐年更新本白皮书内容,力求真实客观地描述国内企业SRE团队的工作方式。在《实践白皮书》初稿长达两年的整理过程中,我们看到了不同企业对SRE的理解,并尽可能统一大家对相似场景的定义;我们看到了不同企业对SRE职能领地的扩展,并将成功团队的经验提炼成案例供大家参考;我们也看到了在这两年的编写过程中,不同企业SRE团队的真实变化,并及时将其更新到实践白皮书中。总之,在未来的每个季度,我们都会将各SRE团队的最新职能、组织形式、技术迭代等现状,补充到《实践白皮书》中。
2023年,中国信息通信研究院(下简称信通院)云计算与大数据研究所(下简称云大所)稳定性保障实验室的专家加入了SRE研讨社区,深度的参与到社区交流当中,为《SRE实践白皮书》的编写工作提供了专业指导。
1.2 SRE发展历程
SRE运动在全球的发展经历了20年,下面是部分重要事件:
●2003年,Google成立了第一个SRE团队;
●2010年,Facebook拥有了一个SRE团队;
●2014年,USENIX协会主办的首届SREcon(网站可靠性工程会议)在美国举行,大会成为了SRE专业人士交流经验和最佳实践的重要平台,标志着SRE作为一个独立且重要的专业领域在全球范围内的正式认可。
●2016年,前Google SRE孙宇聪翻译出版了首部中文专业书籍《SRE:Google运维揭秘》,在国内引起了很大的反响,很多企业开始学习并成立自己的SRE团队;
●2016年,Netflix成立了“核心SRE团队”。Uber开始撰写有关其如何使用SRE的文章;

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)