site reliability engineer
генерация резюме под вакансию
сопроводительное письмо
описание
Альфа-Банк является крупнейшим частным банком в России, предоставляющим широкий спектр финансовых услуг для частных и корпоративных клиентов.
задачи
- Развивать SRE-направление, внедрять практики надежности, формировать стандарты эксплуатации и участвовать в разработке архитектурных решений;
- Настраивать и сопровождать контейнерную платформу на базе Docker и Kubernetes;
- Разрабатывать и сопровождать инфраструктуру как код с использованием Terraform, Ansible и Helm;
- Строить и развивать CI/CD-процессы на базе GitLab CI;
- Организовывать и развивать системы мониторинга и логирования на базе VictoriaMetrics, Grafana и ELK, разрабатывать кастомные экспортеры;
- Участвовать в расследовании инцидентов, проводить postmortem-анализы и снижать MTTR;
- Оптимизировать процессы реагирования на инциденты и предотвращать повторные сбои;
- Внедрять и контролировать SLO, управлять Error Budget, разрабатывать дашборды надежности и проводить регулярные Reliability Review;
- Оптимизировать инфраструктуру по производительности и стоимости, включая capacity planning, анализ узких мест и cost optimization в облаке;
- Обеспечивать стабильность, отказоустойчивость и масштабируемость продуктивных систем;
- Настраивать процессы резервного копирования, восстановления и реализовывать планы аварийного восстановления (Disaster Recovery);
- Внедрять практики тестирования устойчивости к сбоям (Chaos Engineering);
- Автоматизировать рутинные операции и реализовывать механизмы самовосстановления (self-healing);
- Участвовать в архитектурных обсуждениях и выборе технологических решений.
требования
- Опыт работы в роли Site Reliability Engineer (SRE) не менее 5 лет;
- Глубокие практические знания Linux, включая эксплуатацию, диагностику, тюнинг и анализ узких мест;
- Уверенное понимание принципов контейнеризации и оркестрации, включая использование Docker и Kubernetes;
- Опыт эксплуатации и оптимизации PostgreSQL, MongoDB и Kafka в продуктивных средах;
- Глубокое понимание архитектурных принципов высокой доступности и отказоустойчивости распределённых систем;
- Опыт построения и поддержки процессов CI/CD, предпочтительно на базе GitLab CI;
- Навыки организации системы мониторинга и логирования с использованием Prometheus, VictoriaMetrics, Grafana, ELK/Logstash;
- Опыт применения подходов Infrastructure as Code и работы с инструментами Terraform, Ansible, Helm;
- Знание и понимание концепций Observability, SRE и Performance Tuning;
- Опыт работы с Yandex Cloud, а также другими облачными платформами или on-prem инфраструктурами;
- Опыт эксплуатации высоконагруженных систем с высокими требованиями к доступности и производительности;
- Опыт участия в дежурствах и реагировании на инциденты в продуктивных системах;
- Развитые навыки анализа и устранения инцидентов, включая определение и устранение первопричин.
условия
- Стабильный и прозрачный доход, размер заработной платы обсуждается по итогам собеседования;
- Квартальная премия по результатам KPI;
- Гибкий график работы;
- Программа ДМС с первых дней работы, включая стоматологию, обслуживание в лучших клиниках города и страхование;
- Компенсация 10-ти дней больничного;
- Возможность вертикального и горизонтального карьерного роста, тренинги, вебинары, митапы и демо-дни;
- Оплата посещения профильных конференций и курсов, помощь с подготовкой к публичным выступлениям и написанием статей;
- Доступ к бесплатным корпоративным библиотекам Alpina Digital, МИФ и бизнес-изданий;
- Программа развития AI-грамотности и треки по работе с нейросетями.
навыки
Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.