Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.
sre engineer
генерация резюме
сопроводительное письмо
описание
Описания нет
задачи
- Определять ключевые индикаторы уровня обслуживания для GPU-решений;
- Формировать целевые уровни обслуживания совместно с заказчиками и владельцем продукта;
- Мониторить соблюдение уровней обслуживания и готовить отчёты по отклонениям;
- Анализировать стоимость ошибок и принимать решения о допустимости рискованных изменений;
- Проектировать и настраивать системы сбора метрик, логов и трейсов;
- Разрабатывать процедуры плавного снижения нагрузки, отказоустойчивости и автоматического восстановления;
- Настраивать алертинг по критическим событиям и деградациям производительности;
- Интегрировать системы наблюдаемости с процессами управления инцидентами;
- Анализировать риски отказов и критических зависимостей в архитектуре GPU-стека;
- Участвовать в анализе инцидентов после их устранения и формировать список мер по предотвращению повторений;
- Собирать и анализировать данные о потреблении ресурсов в пилотах и промышленных инсталляциях;
- Готовить рекомендации по размерности кластеров и конфигурации для различных сценариев использования;
- Формировать требования к железу и сети для новых площадок;
- Определять критерии готовности релиза с точки зрения производительности и надёжности;
- Участвовать в пилотных проектах для сбора метрик реального использования;
- Готовить отчёты по производительности и стабильности по итогам пилотов.
требования
- Высшее образование в области компьютерных наук, физики, инженерии или смежных дисциплин;
- Опыт работы в SRE, performance engineering или эксплуатации критичных систем от 4 лет;
- Практический навык работы с принципами SRE: SLI/SLO/SLA, бюджетом ошибок и управлением инцидентами;
- Опыт работы с системами мониторинга и наблюдаемости: Prometheus, Grafana, ELK/Loki, Jaeger/Tempo;
- Опыт проведения нагрузочного тестирования, включая методы, инструменты и интерпретацию результатов;
- Понимание архитектуры GPU и метрик производительности: утилизация, пропускная способность памяти, пропускная способность PCIe, тепловой троттлинг;
- Опыт настройки производительности Linux, параметров ядра и сетевой оптимизации;
- Опыт планирования мощностей, прогнозирования ресурсов и анализа трендов;
- Готовность работать на территории РФ;
- Будет плюсом понимание требований по лицензированию ПО и работе с проприетарными драйверами.
условия
- Работа в аккредитованной IT-компании.
навыки