Observability: онлайн-курс для SRE-инженеров, обучение по SRE-практикам на платформе Слёрм

Для SRE-инженеров, которые хотят взять под контроль состояние системы. Научитесь агрегировать SLO/SLI в одну или несколько высокоуровневых метрик.

старт 14 апреля

SRE: Observability

Начать учиться

Программа

Практика на стендах

Для выполнения практических заданий выделяем стенды

Онлайн-встречи со спикером

Онлайн-встречи в формате «вопрос-ответ»

Сертификат об окончании обучения

Именной сертификат с индивидуальным номером

3 недели обучения

8 часов теории

4 часа практики

Для тех, у кого есть базовые знания об SRE-практиках

Для SRE-инженеров, которые хотят повысить отказоустойчивость системы

Для кого этот курс?

Для компаний, где уже внедрены error budget и SLO, но эти процессы не отработаны до конца

Для команд, которые хотят наладить внутренние процессы и научиться настраивать мониторинг

Учиться будет проще, если у вас уже есть:

Навыки программирования: вам предстоит писать код на Python

Навыки работы с Linuх

Опыт работы с Kubernetes

Опыт настройки мониторинга: Prometheus, Grafana и др.

Стек, с которым будете работать:

Приложение на Python

Kubernetes

Graphite

Grafana

Чему вы научитесь на курсе

Реализовывать Non Functional Requirements — требования для оценки качества технической работы

Выбирать метрики, чтобы с их помощью успешно определять надёжность системы

«Читать» по метрикам, что с системой что-то не так

Рассчитывать error budget

Применять классические воронки

Измерять надежность точек входа

Знакомо?

У меня есть 100 микросервисов, я умею мерить надёжность каждого, но бизнес хочет что-то простое и понятное, а не 100 независимых метрик

Хочу научиться замечать инцидент в зачатке на графике и по алерту, чтобы предотвратить панику и стресс в моменте

Достало, что про сбои в работе я узнаю от пользователей и саппорта, но я не знаю, как это изменить

Хочу объяснить руководителю, зачем собирать бизнес-метрики приложения, и сколько он теряет в моменте инцидента

Хочу договориться с бизнесом о расстановке приоритетов: выкатывать фичи или работать над надёжностью

Как проходит обучение:

На серии мастер-классов вы построите систему мониторинга приложений, состоящих из множества микросервисов. На практике научитесь работать с метриками, которые отражают требования бизнеса и стабильность системы одновременно.

Общие подходы к формированию мониторинга

Неделя 1

Чтобы научиться работать с основными Golden Signals SRE на любом сервисе для эффективности мониторинга и оповещения

Зачем:

Что делаем:

Настраиваем Golden Signals для приложения

Изучаем метрики Golden Signals в разрезе реальных приложений

Работаем с разными инфраструктурными паттернами

Алертинг

Неделя 2

Чтобы вы могли настроить систему алертов, которая обеспечит быстрое реагирование на аварии без отвлекающих уведомлений

Зачем:

Применяем методы математической статистики в работе с метриками и определяем, какие отклонения значимы и действительно являются аварией

Что делаем:

Строим систему алертов, учитывая anomaly detection: сезонность, тенденции рынка и другие внешние условия

Разбираем сложные сценарии при построении системы алертов, строим бейзлайн

Учимся выбирать и настраивать silence periods для алертов так, чтобы они не спамили во время работы с инцидентом

Мониторинг множества сервисов

Неделя 3

Чтобы научиться приоритизировать таски, даже если продакт каждого из 100 сервисов говорит, что его задача самая критичная

Зачем:

Что делаем:

Работаем с прозрачными бизнес-метриками надёжности приложения

Разбираем аспекты использования приложений пользователями, чтобы иметь легко измеряемую надёжность через стартовые точки

Учимся строить систему метрик для множества сервисов и понимать, что каждый сервис надёжен по отдельности

Cпикер курса

Team Lead команды SLA в Авито

Более 10 лет в разработке. Фанат метрик. Регулярный докладчик на конференциях и митапах.

Павел Лакосников

На вебинаре обсуждали главные вопросы, связанные с observability:

Какие подходы используют в мониторинге?
Зачем и как мониторить самого себя?
Какие подходы есть у геораспределённых систем?
Как большие компании типа Google работают с мониторингом?

После вебинара у вас будет представление о трендах в Observability, о подходах в мониторинге и о метриках. Наслаждайтесь просмотром!

Внешнее observability а-ля black-box

Примеры лекций

Cвидетельство

Именное свидетельство о прохождении курса получает студент, который:

прошёл 80% курса

принимал участие в мастер-классах, которые входят в курс

Как купить курс

Интенсив

Видеоуроки

Практические задания

Работа в группах с куратором

Онлайн-встречи со спикерами

в рассрочку на 4 месяца или 55 000 ₽ единовременно

13 750 ₽/мес

Купить поток

старт 14 апреля

Написать нам

В 75% случаев обучение готова оплатить компания. Напишите нам, и мы поможем.

Курс за счёт работодателя

Написать нам

Узнать про вычет

Предоставим все необходимые документы для получения вычета.

Налоговый вычет 13%

Запись интенсива

Видеоуроки

Практические задания

Старт когда удобно

в рассрочку на 4 месяца или 25 000 ₽ единовременно

6 250 ₽/мес

Купить видеокурс

Командное предложение

от 10-ти человек
специальные условия

от 5-ти человек

-10%

от 3-х человек

-7%

Оставить заявку

Интенсив

Видеоуроки

Практические задания

Работа в группах с куратором

Онлайн-встречи со спикерами

55 000 ₽

Купить интенсив

старт 14 апреля

Перейти

Выгодно и быстро обучим целые команды. Единоразовое оформление и быстрый доступ к курсам.

Универсальные доступы

Перейти

Подарите своему сотруднику скидку или курс целиком. А мы упакуем ;)

Подарочный сертификат

Запись интенсива

Видеоуроки

Практические задания

Старт когда удобно

25 000 ₽

Купить видеокурс

Подарочный сертификат

Подарите своему сотруднику скидку или курс целиком. А мы упакуем ;)

Перейти

Универсальные доступы

Выгодно и быстро обучим целые команды. Единоразовое оформление и быстрый доступ к курсам.

Перейти

SRE: data-driven подход к управлению надежностью систем

В результате обучения на курсе вы сможете составить план действий по внедрению SRE в своей компании, поймёте, как коммуницировать с бизнесом и коллегами в случае аварии, как принимать сервисы на поддержку.

Это может быть интересно

Подробнее

Нужна консультация?

задайте нам свой вопрос