mlops engineer
генерация резюме под вакансию
сопроводительное письмо
описание
Freedom Telecom — телекоммуникационная компания, развивающая широкополосный доступ к сети интернет и открытый доступ Wi-Fi в крупных городах Республики Казахстан.
задачи
- Развертывать обученные ML-модели в промышленную среду;
- Упаковывать модели в Docker-контейнеры и настраивать inference-серверы;
- Обеспечивать версионирование моделей и воспроизводимость процессов деплоя;
- Подготавливать, настраивать и администрировать GPU-серверы;
- Конфигурировать GPU-ноды в Kubernetes-кластере;
- Мониторить производительность GPU, диагностировать и устранять неисправности оборудования;
- Строить и сопровождать CI/CD-пайплайны;
- Настраивать и сопровождать инфраструктуру мониторинга и алертинга;
- Контролировать производительность ML-сервисов;
- Управлять ресурсами GPU-кластера, распределять нагрузку и оптимизировать использование оборудования;
- Взаимодействовать с командами Data Science, ML Engineering, DevOps и разработки;
- Подготавливать техническую документацию и участвовать в развитии внутренних стандартов MLOps.
требования
- Высшее образование в области информационных технологий, компьютерных наук, прикладной математики или смежных направлений;
- Опыт работы в сфере MLOps, DevOps или ML Infrastructure от 2–3 лет;
- Практический опыт работы с Docker, Kubernetes и Helm;
- Понимание принципов контейнеризации, оркестрации и управления вычислительными ресурсами;
- Опыт работы с платформами развертывания ML-моделей;
- Уверенное владение Python для автоматизации процессов, разработки служебных скриптов и работы с API;
- Навыки Bash/Shell scripting;
- Опыт администрирования GPU-серверов, настройки NVIDIA Driver, CUDA и cuDNN;
- Опыт работы с Git и построения CI/CD-процессов;
- Опыт настройки систем мониторинга и алертинга;
- Понимание жизненного цикла ML-моделей и принципов MLOps;
- Английский язык на уровне чтения технической документации;
- Будет плюсом опыт работы с Kubernetes GPU Operator, опыт эксплуатации высоконагруженных AI/ML-сервисов, знание технологий распределенного обучения моделей, опыт работы с облачными платформами, опыт использования Terraform или Ansible, знание Linux на уровне системного администрирования.
условия
- График 5/2, с 9:00 до 18:00;
- Свободный дресс-код;
- Привилегии от экосистемы Freedom Holding;
- Экстра days off, помимо отпускных и больничных;
- Материальная помощь по памятным событиям;
- Работа над инновационными проектами;
- Карьерный рост в команде профессионалов.
навыки
Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.