site reliability engineer
сопроводительное письмо
описание
Команда жизненного цикла исполнителей отвечает за наём, администрирование и операционное управление. Она строит инфраструктуру для 30 000 удалённых исполнителей Yandex Crowd, управляет бизнес-процессами и автоматизирует их. В сферу деятельности входит подбор и оформление сотрудников, обеспечение эффективной работы исполнителей, а также поддержка всех удалённых исполнителей сервиса. Кроме того, команда обеспечивает поставку данных в DWH и делает отчёты для продакт-менеджеров по основным показателям, касающимся работы исполнителей.
задачи
- Проектировать и внедрять Infrastructure as Code (IaC)
- Разрабатывать и внедрять решения для управления ИТ‑инфраструктурой через код, обеспечивая стандартизацию и повторяемость конфигураций
- Создавать и поддерживать инструменты и скрипты для упрощения и ускорения развёртывания сервисов, а также для эффективного управления ресурсами и конфигурациями
- Настраивать системы мониторинга, отслеживать ключевые метрики производительности и работоспособности сервисов, оперативно выявлять и устранять потенциальные проблемы, чтобы гарантировать высокую доступность и отказоустойчивость систем
требования
- Знать инструменты автоматизации и управления инфраструктурой (Terraform)
- Уметь работать с системами мониторинга и логирования (Grafana)
- Владеть навыками работы с контейнеризацией и оркестрацией (Docker, Kubernetes)
- Знать принципы построения высокодоступных и масштабируемых систем
- Уметь писать скрипты на одном из языков программирования (Python, Bash, Java)
- Хорошо разбираться в сетевых протоколах и основах сетевой инфраструктуры
- Способны оперативно реагировать на возникающие проблемы и эффективно работать в условиях инцидентов
- Готовы работать в режиме многозадачности и адаптироваться к меняющимся требованиям и условиям
- Будет плюсом работа с системами управления конфигурациями и версиями (Git, CI/CD‑системы), участие в построении систем резервного копирования и восстановления данных, знание облачных платформ (AWS, GCP, Yandex Cloud), знакомство с DevOps и принципами непрерывной доставки ПО, обладание знаниями в области кибербезопасности и умение применять их на практике для защиты инфраструктуры
условия
- Расширенная медицинская страховка начинает работать с первого месяца в Яндексе
- Психотерапия в офисе или онлайн-сервисах
- Лазерная коррекция зрения через год работы
- Ведение беременности и роды — через два года
- Страховка для родственников по системе 80/20
- Внутренняя образовательная платформа, менторство и программы для начинающих и опытных руководителей
- Оплата участия в профильных конференциях
- Внутренние проекты для обмена экспертизой
- Спортзалы в крупных офисах, корпоративный тренер, скидки в фитнес-клубах
- Спортивный клуб Яндекса
- Гибкий график
- Жилищные займы по льготной ставке для сотрудников, работающих в российских офисах
- Страхование, детские дни в офисе, подарки на рождение детей и чекапы при планировании беременности
навыки