site reliability engineer
генерация резюме под вакансию
сопроводительное письмо
описание
Яндекс 360 объединяет сервисы Диск, Почта, Документы, Календарь, Телемост, Заметки и другие продукты с многомиллионной аудиторией, обеспечивая их качество и производительность.
задачи
- Руководить командой из семи SRE-инженеров, включая постановку задач, распределение нагрузки и контроль сроков;
- Проводить встречи 1–1, оценивать эффективность сотрудников и формировать планы их развития;
- Создавать продуктивную рабочую атмосферу и разрешать конфликтные ситуации;
- Формировать и внедрять стратегию SRE для дисковых сервисов;
- Оптимизировать процессы мониторинга, реагирования на инциденты и пост-инцидентного анализа;
- Внедрять практики DevOps/SRE и согласовывать подходы с командами разработки, эксплуатации и безопасности;
- Участвовать в проектировании архитектуры сервисов с фокусом на надёжность, масштабируемость и отказоустойчивость;
- Анализировать метрики надёжности и устранять узкие места;
- Участвовать в дежурствах и координировать устранение критических инцидентов;
- Оценивать и внедрять технологии для повышения надёжности сервисов;
- Готовить отчёты о надёжности сервисов и эффективности команды;
- Планировать ресурсы команды на среднесрочную перспективу.
требования
- Опыт работы в роли SRE- или DevOps-инженера от трёх до четырёх лет;
- Опыт руководства командой инженеров не менее двух лет;
- Глубокое понимание принципов SRE: SLI/SLO/SLA, бюджет ошибок, автоматизация, мониторинг, управление инцидентами;
- Навыки проектирования отказоустойчивых и масштабируемых систем;
- Уверенная работа с Linux, сетевыми протоколами и инфраструктурой;
- Практический опыт работы с контейнеризацией и оркестрацией (Docker, Kubernetes), системами мониторинга и алертинга (Prometheus, Grafana, Zabbix), инструментами автоматизации (Ansible, Terraform) и базами данных (SQL и NoSQL);
- Сильные коммуникативные навыки, умение вести переговоры и договариваться;
- Будет плюсом опыт работы с облачными платформами (Yandex Cloud, AWS, GCP, Azure), участие в построении disaster-recovery-решений и проведении chaos engineering, опыт выступлений с докладами на технических конференциях или написания статей, знакомство с микросервисной архитектурой и сервисными сетками (Istio, Linkerd), наличие сертификатов по Kubernetes (CKA) или другим релевантным технологиям.
условия
- Расширенная медицинская страховка с первого месяца работы, включающая плановую и неотложную помощь, лечение критических заболеваний и стоматологию;
- Оплата 30 дней больничного в году в размере полной зарплаты;
- Программы ментального здоровья, включая онлайн-консультации с психологами и терапевтов в крупных офисах;
- Ежегодные чекапы и регулярная вакцинация по ДМС;
- Оплата ведения беременности и родов для сотрудниц и жён сотрудников со стажем от двух лет;
- Страховка для родственников по системе 80/20;
- Возможность коррекции зрения после года работы.
навыки
Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.