sre engineer

в пределах рынка

вакансия 343 000 ₽

в среднем 327 564 ₽

мэтч

Загрузи резюме, чтобы видеть мэтчи с вакансией

генерация резюме под вакансию

Загрузи резюме в профиль, чтобы сгенерировать временное CV под эту вакансию

сопроводительное письмо

Загрузи резюме в профиль, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Кандидат должен находиться и работать на территории РФ.

Описания нет

задачи

Определять ключевые индикаторы уровня обслуживания для GPU-решений;
Формировать целевые уровни обслуживания совместно с заказчиками и владельцем продукта;
Мониторить соблюдение уровней обслуживания и готовить отчёты по отклонениям;
Анализировать стоимость ошибок и принимать решения о допустимости рискованных изменений;
Проектировать и настраивать системы сбора метрик, логов и трейсов;
Разрабатывать процедуры плавного снижения нагрузки, отказоустойчивости и автоматического восстановления;
Настраивать алертинг по критическим событиям и деградациям производительности;
Интегрировать системы наблюдаемости с процессами управления инцидентами;
Анализировать риски отказов и критических зависимостей в архитектуре GPU-стека;
Участвовать в анализе инцидентов после их устранения и формировать список мер по предотвращению повторений;
Собирать и анализировать данные о потреблении ресурсов в пилотах и промышленных инсталляциях;
Готовить рекомендации по размерности кластеров и конфигурации для различных сценариев использования;
Формировать требования к железу и сети для новых площадок;
Определять критерии готовности релиза с точки зрения производительности и надёжности;
Участвовать в пилотных проектах для сбора метрик реального использования;
Готовить отчёты по производительности и стабильности по итогам пилотов.

требования

Высшее образование в области компьютерных наук, физики, инженерии или смежных дисциплин;
Опыт работы в SRE, performance engineering или эксплуатации критичных систем от 4 лет;
Практический навык работы с принципами SRE: SLI/SLO/SLA, бюджетом ошибок и управлением инцидентами;
Опыт работы с системами мониторинга и наблюдаемости: Prometheus, Grafana, ELK/Loki, Jaeger/Tempo;
Опыт проведения нагрузочного тестирования, включая методы, инструменты и интерпретацию результатов;
Понимание архитектуры GPU и метрик производительности: утилизация, пропускная способность памяти, пропускная способность PCIe, тепловой троттлинг;
Опыт настройки производительности Linux, параметров ядра и сетевой оптимизации;
Опыт планирования мощностей, прогнозирования ресурсов и анализа трендов;
Готовность работать на территории РФ;
Будет плюсом понимание требований по лицензированию ПО и работе с проприетарными драйверами.

условия

Работа в аккредитованной IT-компании.

навыки

sre performance engineering gpu linux prometheus grafana elk loki jaeger tempo capacity planning sli slo sla

Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.

зарплата по оценке AI

Добавить в трекер

Откликнуться В трекер