Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.

Т1
сегодня

sre engineer

выше рынка на 7,2%
вакансия 343 000 ₽
в среднем 319 839 ₽
мэтч
Добавь резюме в профиле, чтобы видеть % мэтча с вакансией

генерация резюме

Добавьте резюме в профиль, чтобы сгенерировать временное CV под эту вакансию

сопроводительное письмо

Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Кандидат должен находиться и работать на территории РФ.

Описания нет

задачи

  • Определять ключевые индикаторы уровня обслуживания для GPU-решений;
  • Формировать целевые уровни обслуживания совместно с заказчиками и владельцем продукта;
  • Мониторить соблюдение уровней обслуживания и готовить отчёты по отклонениям;
  • Анализировать стоимость ошибок и принимать решения о допустимости рискованных изменений;
  • Проектировать и настраивать системы сбора метрик, логов и трейсов;
  • Разрабатывать процедуры плавного снижения нагрузки, отказоустойчивости и автоматического восстановления;
  • Настраивать алертинг по критическим событиям и деградациям производительности;
  • Интегрировать системы наблюдаемости с процессами управления инцидентами;
  • Анализировать риски отказов и критических зависимостей в архитектуре GPU-стека;
  • Участвовать в анализе инцидентов после их устранения и формировать список мер по предотвращению повторений;
  • Собирать и анализировать данные о потреблении ресурсов в пилотах и промышленных инсталляциях;
  • Готовить рекомендации по размерности кластеров и конфигурации для различных сценариев использования;
  • Формировать требования к железу и сети для новых площадок;
  • Определять критерии готовности релиза с точки зрения производительности и надёжности;
  • Участвовать в пилотных проектах для сбора метрик реального использования;
  • Готовить отчёты по производительности и стабильности по итогам пилотов.

требования

  • Высшее образование в области компьютерных наук, физики, инженерии или смежных дисциплин;
  • Опыт работы в SRE, performance engineering или эксплуатации критичных систем от 4 лет;
  • Практический навык работы с принципами SRE: SLI/SLO/SLA, бюджетом ошибок и управлением инцидентами;
  • Опыт работы с системами мониторинга и наблюдаемости: Prometheus, Grafana, ELK/Loki, Jaeger/Tempo;
  • Опыт проведения нагрузочного тестирования, включая методы, инструменты и интерпретацию результатов;
  • Понимание архитектуры GPU и метрик производительности: утилизация, пропускная способность памяти, пропускная способность PCIe, тепловой троттлинг;
  • Опыт настройки производительности Linux, параметров ядра и сетевой оптимизации;
  • Опыт планирования мощностей, прогнозирования ресурсов и анализа трендов;
  • Готовность работать на территории РФ;
  • Будет плюсом понимание требований по лицензированию ПО и работе с проприетарными драйверами.

условия

  • Работа в аккредитованной IT-компании.

прозрачные зарплаты в IT

Анонимные данные по зарплатам и грейдам

Посмотреть
График динамики зарплат
Откликнуться Добавить в отклики

Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.