Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.

Cloud.ru

сегодня

site reliability engineer

в пределах рынка

вакансия 423 000 ₽

в среднем 407 739 ₽

Добавь резюме в профиле, чтобы видеть % мэтча с вакансией

генерация резюме

Добавьте резюме в профиль, чтобы сгенерировать временное CV под эту вакансию

сопроводительное письмо

Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Описания нет

задачи

Проектировать, разрабатывать, внедрять и поддерживать SLO/SLI для всех сервисов;
Участвовать в устранении инцидентов — в связке со смежными командами устранять сбои и предотвращать их повторение;
Участвовать в заполнении и разборе постмортемов;
Расследовать причины инцидентов (RCA);
Разрабатывать и выполнять меры, направленные на предотвращение повторных инцидентов;
Развивать мониторинг и алертинг — разработка, обогащение, настройка метрик, логов, трейсов, алертов, дашбордов, ранбуков (и их регулярный анализ/рефакторинг);
Автоматизировать рутинную работу;
Ревьюить и помогать дорабатывать DRP, участвовать в качестве координатора в DRT, поддерживать DRP в актуальном состоянии;
Участвовать в разработке и оптимизации процессов, используемых в работе;
Встраивать в процессы практики: observability by default, alerting as code, runbooks, SLO/SLA/SLI;
Помогать командам строить отказоустойчивые сервисы: autoscaling, failover, chaos engineering;
Обеспечивать внутреннюю экспертизу по стабильности, метрикам, инцидентам и error budgets.

требования

Экспертиза и практический опыт в SRE-практиках: глубокое понимание SLO/SLI, error budget, toil reduction, automation first и умение применять это практически для обеспечения надежности сервисов;
Умение проводить code review для оценки готовности к выходу в production новых функций и сервисов с точки зрения надёжности, наблюдаемости и эффективности, понимание, как изменения в коде влияют на смежные системы и общую стабильность платформы;
Понимание load balancing, circuit breakers, disaster recovery, MTTR, RTO;
Экспертные знания в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть);
Опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем;
Понимание, как работают сети и умение диагностировать проблемы в их работе;
Практический опыт IaaC (Terraform/Ansible) и понимание принципов;
Практический опыт построения CI/CD (Gitlab CI, Argo CD);
Умение писать автоматизацию и скрипты на Python/Go;
Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, Tempo, ELK);
Практический опыт в SRE роли;
Будет плюсом знание, как сделать отказоустойчивый масштабируемый сервис, опыт написания и ревью технической документации, коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev), системное мышление и умение анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения, практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании, знание, как определять SLI для сервиса без исторических данных о надежности, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов, и опыт внедрения observability-as-code и alerting-as-code.

условия

Оформление в соответствии с трудовым законодательством РФ;
Оклад + годовой бонус;
Расширенный ДМС со стоматологией;
Компенсация спорта;
Штатный терапевт и психолог;
Гибкий график работы, пятница — сокращенный рабочий день;
Классный офис в Москве и коворкинги в разных городах России;
Возможность работать удаленно на территории РФ (зависит от функционала и позиции);
Полезные перекусы;
Индивидуальный план развития и обучение за счет компании;
Возможность вертикального и горизонтального роста;
Возможность развиваться как эксперту: выступать на мероприятиях, писать статьи;
Профессиональные сообщества и клубы по интересам;
Неформальные мероприятия: от футбольного клуба до посиделок с пиццей;
Материальная помощь при рождении детей и других семейных обстоятельствах;
Бонусы за рекомендации кандидатов на открытые вакансии;
Бонусные программы от компаний партнеров.

навыки

sre slo/sli error budget linux kubernetes terraform ansible ci/cd gitlab ci argo cd python go prometheus grafana loki tempo elk

зарплата по оценке AI

Добавить в отклики

Откликнуться В отклики