site reliability engineer

выше рынка на 34,9%

вакансия 255 151 ₽

в среднем 189 175 ₽

мэтч

Загрузи резюме, чтобы видеть мэтчи с вакансией

генерация резюме под вакансию

Загрузи резюме в профиль, чтобы сгенерировать временное CV под эту вакансию

сопроводительное письмо

Загрузи резюме в профиль, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Яндекс 360 объединяет сервисы Диск, Почта, Документы, Календарь, Телемост, Заметки и другие продукты с многомиллионной аудиторией, обеспечивая их качество и производительность.

задачи

Руководить командой из семи SRE-инженеров, включая постановку задач, распределение нагрузки и контроль сроков;
Проводить встречи 1–1, оценивать эффективность сотрудников и формировать планы их развития;
Создавать продуктивную рабочую атмосферу и разрешать конфликтные ситуации;
Формировать и внедрять стратегию SRE для дисковых сервисов;
Оптимизировать процессы мониторинга, реагирования на инциденты и пост-инцидентного анализа;
Внедрять практики DevOps/SRE и согласовывать подходы с командами разработки, эксплуатации и безопасности;
Участвовать в проектировании архитектуры сервисов с фокусом на надёжность, масштабируемость и отказоустойчивость;
Анализировать метрики надёжности и устранять узкие места;
Участвовать в дежурствах и координировать устранение критических инцидентов;
Оценивать и внедрять технологии для повышения надёжности сервисов;
Готовить отчёты о надёжности сервисов и эффективности команды;
Планировать ресурсы команды на среднесрочную перспективу.

требования

Опыт работы в роли SRE- или DevOps-инженера от трёх до четырёх лет;
Опыт руководства командой инженеров не менее двух лет;
Глубокое понимание принципов SRE: SLI/SLO/SLA, бюджет ошибок, автоматизация, мониторинг, управление инцидентами;
Навыки проектирования отказоустойчивых и масштабируемых систем;
Уверенная работа с Linux, сетевыми протоколами и инфраструктурой;
Практический опыт работы с контейнеризацией и оркестрацией (Docker, Kubernetes), системами мониторинга и алертинга (Prometheus, Grafana, Zabbix), инструментами автоматизации (Ansible, Terraform) и базами данных (SQL и NoSQL);
Сильные коммуникативные навыки, умение вести переговоры и договариваться;
Будет плюсом опыт работы с облачными платформами (Yandex Cloud, AWS, GCP, Azure), участие в построении disaster-recovery-решений и проведении chaos engineering, опыт выступлений с докладами на технических конференциях или написания статей, знакомство с микросервисной архитектурой и сервисными сетками (Istio, Linkerd), наличие сертификатов по Kubernetes (CKA) или другим релевантным технологиям.

условия

Расширенная медицинская страховка с первого месяца работы, включающая плановую и неотложную помощь, лечение критических заболеваний и стоматологию;
Оплата 30 дней больничного в году в размере полной зарплаты;
Программы ментального здоровья, включая онлайн-консультации с психологами и терапевтов в крупных офисах;
Ежегодные чекапы и регулярная вакцинация по ДМС;
Оплата ведения беременности и родов для сотрудниц и жён сотрудников со стажем от двух лет;
Страховка для родственников по системе 80/20;
Возможность коррекции зрения после года работы.

навыки

sre devops linux docker kubernetes prometheus grafana zabbix ansible terraform sql nosql мониторинг автоматизация

Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.

зарплата по оценке AI

Добавить в трекер

Откликнуться В трекер