18018650584

18621556435





Site Reliability Engineering (SRE)PractitionerSM 

认证课程

 




本课程介绍了一系列通过混合自动化、组织工作方式和业务协调来推进服务可靠性工程的实践。为专注于大规模服务可扩展性(scalability)和可靠性(reliability)的学友们量身定制。

 

一、SRE Practitioner课程概述:

SRE(站点可靠性工程)从业者课程介绍了在组织内经济和可靠地扩展服务的方法。课程探讨了通过设计、自动化和闭环修复提高服务健康的敏捷性、跨职能协作和透明度的策略,以构建弹性。

本课程旨在为学员提供实践、方法和工具,通过使用真实场景和案例故事,让组织内参与可靠性的人员参与进来。课程结束后,学员将在返回办公室时获得切实的收获,例如实施符合其组织背景的 SRE 模型、在分布式系统中构建高级可观察性、通过设计建立弹性以及使用 SRE 实践进行有效的事件响应。本课程通过利用关键SRE资源,与SRE领域的思想领袖合作,并与接受SRE的组织合作,以提取现实生活中的最佳实践,旨在教授开始采用SRE所需的关键原则和实践。本课程将帮助学员成功通过SRE从业人员认证考试。

 

二、课程周期:2.5天(培训)+0.5天(考试)

三、SRE Practitioner课程的目标学员:

● 关注大规模服务的可扩展性和可靠性的人员

● 任何对现代IT领导力和组织变革方法感兴趣的人员

● 业务经理

● 商业利益相关者

● 变革代理人

● 专家顾问

DevOps从业者

IT主管

IT经理

IT团队领导

● 产品经理

Scrum大师

● 软件工程师

● 站点可靠性工程师

● 系统集成商

● 工具提供者

 

四、SRE Practitioner课程的学习目标:

P 如何在您的组织中成功实施富有活力的SRE文化的实践观点;

P SRE的基本原则,了解什么不是反模式,以及如何意识到它们并避免发生;

P 引入SRE对组织的影响;

P 在分布式生态系统中提升SLISLO的艺术,并将错误预算的使用扩展到正常范围之外,以创新和规避风险;

P 通过设计在分布式、零信任环境中构建安全性和弹性;

P 您如何实现全栈可观察性、分布式跟踪并实现可观察性驱动的开发文化?

P 使用人工智能管理数据,从被动到主动和预测性事件管理。另外,如何使用DataOps构建干净的数据沿袭?

P 为什么平台工程在构建SRE文化的一致性和可预测性方面如此重要?

P 实施实用的混沌工程;

P 基于事件指挥框架的SRE的重大事件响应责任,以及非管理事件的剖析示例;

P 为什么SRE可以被认为是DevOps最纯粹的实现;

P SRE执行模型;

P 理解SRE的作用,理解为什么可靠性是每个人的问题;

P SRE成功案例的学习;


五、SRE Practitioner课程的学习收益:

(一)对组织的收益:

1、用正确的方式实施SREDevOps,从而实现组织更高的业务价值;

2、提高组织服务的稳定性和可靠性;

3、提升产品在开发、部署和运维生命周期中的重大改进;

4、提升组织可靠性技术的投资与客户体验之间的平衡;

5、使文化和产品、开发和运维团队之间的更大同步,提高组织员工的士气和留存率;

(二)对个人的收益:

1、提升个人对SRE文化实践的理解;

2、为更高的安全性和可靠性设计服务;

3、构建可测试灾难风险的容错分布式生态系统;

4、在运维中建立可观察性和智能性;

5、提升个人技能能力的广泛性,学习和利用最新的自动化技术;

6、提高个人对其他角色的理解,为创造更好的职场文化做出贡献;


六、SRE Practitioner课程大纲:

◆ 课程介绍

◆ 模块1:SRE反模式

◆ 模块2SLO是客户满意度的代表

◆ 模块3:构建安全和可靠的系统

◆ 模块4:全栈可观测性

◆ 模块5:平台工程和AIOPs

◆ 模块6SRE和事件响应管理

◆ 模块7:混沌工程

◆ 模块8:  SREDevOps的最纯粹形式

◆ 模块9:  SRE落地实战案例

模块10: 谷歌SRE环境搭建与演练


七、SRE Practitioner认证考试:

报考条件:已获得SRE Foundation认证的学员

考试时间:90分钟

考试题型:多选题

学员答对65%的题目,总计是40题多选题,学员将获得SRE从业资格者证书。

该认证由DevOps Institute管理和维护。


课程咨询:艾老师 18018650584( 微信同号