Т1
сегодня

mlops engineer

выше рынка на 20,8%
вакансия 276 900 ₽
в среднем 229 193 ₽
мэтч
Добавь резюме в профиле, чтобы видеть % мэтча с вакансией

сопроводительное письмо

Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Компания Т1 занимается разработкой и эксплуатацией инфраструктуры для GPU-серверов и облачных GPU-решений. Команда обеспечивает создание воспроизводимых окружений, автоматизацию жизненного цикла продукта и поддержку ML-пайплайнов на PyTorch.

задачи

  • Создавать золотой образ для GPU-серверов и облачных GPU-решений.
  • Разрабатывать набор автопроверок: функциональные тесты, smoke/health тесты, регрессию.
  • Проводить нагрузочные тесты и бенчмарки, собирать метрики.
  • Автоматизировать жизненный цикл продукта.
  • Поддерживать пилотов у заказчиков: готовить стенд, диагностировать, давать рекомендации по настройкам.
  • Оформлять результаты: отчеты по тестированию, матрицы совместимости.

требования

  • 3+ года в DevOps/SRE/MLOps/Platform Engineering.
  • Практический опыт эксплуатации Kubernetes-кластера.
  • Опыт работы с GPU-окружениями и библиотеками (NVIDIA-стек).
  • Опыт подготовки воспроизводимых окружений: образы ОС/контейнеры, IaC, автоматизация развертываний.
  • Опыт сопровождения ML-пайплайна на PyTorch.
  • Знание Linux (systemd, сети, storage, kernel modules, права/SELinux).
  • Знание Kubernetes (базовая эксплуатация, namespaces/RBAC, daemonset, scheduling).
  • Знание CRI-O + Podman.
  • Знание CI/CD и Git.
  • Умение автоматизировать: Bash + Python, Ansible (или аналог).
  • Понимание программного стека GPU-решений.
  • Будет плюсом опыт поддержки клиентов/пилотов (PoC), разбор инцидентов, сбор требований, выпуск фиксов/релизов, ведение матрицы совместимости, NVIDIA-экосистема (CUDA, NCCL, NVML/DCGM, NVIDIA Container Toolkit, MIG), инференс/сервинг (Triton Inference Server, TensorRT, vLLM/llama.cpp, KServe/Seldon), Kubernetes (CNI/CSI, admission controllers, Helm/Kustomize, operators, cluster upgrades), IaC (Terraform, Packer, cloud-init), мониторинг (Prometheus, Grafana, Loki/ELK, OpenTelemetry, алертинг и SLO/SLI), нагрузочное/функциональное тестирование (pytest, locust/k6), виртуализация/облака (OpenStack/VMware, понимание SR-IOV), PyTorch Distributed (DDP) / multi-GPU, опыт работы с Astra Linux/РЕД ОС/ALT.

условия

  • Полная занятость.
  • График: удаленная работа.

прозрачные зарплаты в IT

Анонимные данные по зарплатам и грейдам

Посмотреть
График динамики зарплат
Откликнуться Добавить в отклики Как распознать мошенничество?