Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.

Т1

24 мар

mlops engineer

выше рынка на 36,1%

вакансия 276 900 ₽

в среднем 203 403 ₽

Добавь резюме в профиле, чтобы видеть % мэтча с вакансией

генерация резюме

Добавьте резюме в профиль, чтобы сгенерировать временное CV под эту вакансию

сопроводительное письмо

Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Компания Т1 занимается разработкой и эксплуатацией инфраструктуры для GPU-серверов и облачных GPU-решений. Команда обеспечивает создание воспроизводимых окружений, автоматизацию жизненного цикла продукта и поддержку ML-пайплайнов на PyTorch.

задачи

Создавать золотой образ для GPU-серверов и облачных GPU-решений.
Разрабатывать набор автопроверок: функциональные тесты, smoke/health тесты, регрессию.
Проводить нагрузочные тесты и бенчмарки, собирать метрики.
Автоматизировать жизненный цикл продукта.
Поддерживать пилотов у заказчиков: готовить стенд, диагностировать, давать рекомендации по настройкам.
Оформлять результаты: отчеты по тестированию, матрицы совместимости.

требования

3+ года в DevOps/SRE/MLOps/Platform Engineering.
Практический опыт эксплуатации Kubernetes-кластера.
Опыт работы с GPU-окружениями и библиотеками (NVIDIA-стек).
Опыт подготовки воспроизводимых окружений: образы ОС/контейнеры, IaC, автоматизация развертываний.
Опыт сопровождения ML-пайплайна на PyTorch.
Знание Linux (systemd, сети, storage, kernel modules, права/SELinux).
Знание Kubernetes (базовая эксплуатация, namespaces/RBAC, daemonset, scheduling).
Знание CRI-O + Podman.
Знание CI/CD и Git.
Умение автоматизировать: Bash + Python, Ansible (или аналог).
Понимание программного стека GPU-решений.
Будет плюсом опыт поддержки клиентов/пилотов (PoC), разбор инцидентов, сбор требований, выпуск фиксов/релизов, ведение матрицы совместимости, NVIDIA-экосистема (CUDA, NCCL, NVML/DCGM, NVIDIA Container Toolkit, MIG), инференс/сервинг (Triton Inference Server, TensorRT, vLLM/llama.cpp, KServe/Seldon), Kubernetes (CNI/CSI, admission controllers, Helm/Kustomize, operators, cluster upgrades), IaC (Terraform, Packer, cloud-init), мониторинг (Prometheus, Grafana, Loki/ELK, OpenTelemetry, алертинг и SLO/SLI), нагрузочное/функциональное тестирование (pytest, locust/k6), виртуализация/облака (OpenStack/VMware, понимание SR-IOV), PyTorch Distributed (DDP) / multi-GPU, опыт работы с Astra Linux/РЕД ОС/ALT.

условия

Полная занятость.
График: удаленная работа.

навыки

linux kubernetes docker containerd helm git gitlab ci jenkins ansible terraform prometheus grafana pytorch

зарплата по оценке AI

Добавить в отклики

Откликнуться В отклики