site reliability engineer
сопроводительное письмо
описание
Компания Cloud.ru занимается облачными услугами, включая IaaS и PaaS, и обладает суперкомпьютерами Christofari. Продуктовая команда занимается развитием наблюдаемости.
задачи
- Разрабатывать методологию и требования к данным для обеспечения наблюдаемости.
- Проводить анализ потоков данных и метрик в системах мониторинга.
- Проверять данные на полноту, корректность и соответствие требованиям.
- Детально разбирать инциденты и выявлять причины проблем с данными.
- Оформлять и поддерживать техническую документацию.
- Принимать участие во внедрении и поддержке стандартов контроля качества данных.
- Участвовать в развитии и поддержке in-house платформы мониторинга.
- Распространять и внедрять процессы и стандарты, консультировать команды.
требования
- Знаете, как сделать отказоустойчивый масштабируемый сервис.
- Имеете опыт написания и ревью технической документации.
- Имеете опыт коммуникации с разработчиками и бизнесом.
- Обладаете системным мышлением и умением анализировать сложные сценарии отказа.
- Имеете опыт построения quality gates в CI/CD.
- Знаете, как определять SLI для сервиса без исторических данных.
- Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов.
- Имеете опыт внедрения observability-as-code и alerting-as-code.
- Будет плюсом практический опыт работы SRE
условия
- Оформление по ТК РФ.
- Оклад + годовой бонус.
- Расширенный ДМС со стоматологией.
- Компенсация спорта.
- Штатный терапевт и психолог.
- Гибкий график, пятница — сокращенный день.
- Классный офис в Москве.
- Возможность работать в гибридном формате.
- Культура с эмпатией, уважением и открытостью.
- Полезные перекусы.
навыки