mlops engineer
сопроводительное письмо
описание
Компания Т1 занимается разработкой и эксплуатацией инфраструктуры для GPU-серверов и облачных GPU-решений. Команда обеспечивает создание воспроизводимых окружений, автоматизацию жизненного цикла продукта и поддержку ML-пайплайнов на PyTorch.
задачи
- Создавать золотой образ для GPU-серверов и облачных GPU-решений.
- Разрабатывать набор автопроверок: функциональные тесты, smoke/health тесты, регрессию.
- Проводить нагрузочные тесты и бенчмарки, собирать метрики.
- Автоматизировать жизненный цикл продукта.
- Поддерживать пилотов у заказчиков: готовить стенд, диагностировать, давать рекомендации по настройкам.
- Оформлять результаты: отчеты по тестированию, матрицы совместимости.
требования
- 3+ года в DevOps/SRE/MLOps/Platform Engineering.
- Практический опыт эксплуатации Kubernetes-кластера.
- Опыт работы с GPU-окружениями и библиотеками (NVIDIA-стек).
- Опыт подготовки воспроизводимых окружений: образы ОС/контейнеры, IaC, автоматизация развертываний.
- Опыт сопровождения ML-пайплайна на PyTorch.
- Знание Linux (systemd, сети, storage, kernel modules, права/SELinux).
- Знание Kubernetes (базовая эксплуатация, namespaces/RBAC, daemonset, scheduling).
- Знание CRI-O + Podman.
- Знание CI/CD и Git.
- Умение автоматизировать: Bash + Python, Ansible (или аналог).
- Понимание программного стека GPU-решений.
- Будет плюсом опыт поддержки клиентов/пилотов (PoC), разбор инцидентов, сбор требований, выпуск фиксов/релизов, ведение матрицы совместимости, NVIDIA-экосистема (CUDA, NCCL, NVML/DCGM, NVIDIA Container Toolkit, MIG), инференс/сервинг (Triton Inference Server, TensorRT, vLLM/llama.cpp, KServe/Seldon), Kubernetes (CNI/CSI, admission controllers, Helm/Kustomize, operators, cluster upgrades), IaC (Terraform, Packer, cloud-init), мониторинг (Prometheus, Grafana, Loki/ELK, OpenTelemetry, алертинг и SLO/SLI), нагрузочное/функциональное тестирование (pytest, locust/k6), виртуализация/облака (OpenStack/VMware, понимание SR-IOV), PyTorch Distributed (DDP) / multi-GPU, опыт работы с Astra Linux/РЕД ОС/ALT.
условия
- Полная занятость.
- График: удаленная работа.
навыки