NDA
сегодня

mlops

ниже рынка на 30,1%
вакансия 240 000 ₽
в среднем 343 200 ₽
мэтч
Добавь резюме в профиле, чтобы видеть % мэтча с вакансией

сопроводительное письмо

Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Нужен английский от B2. Гибрид во Франции или Узбекистане, есть релокация

Команда занимается inference-инфраструктурой: оптимизирует задержки, пропускную способность и затраты для флота моделей. Строит и масштабирует сервисы моделей с TensorZero, vLLM/SGlang/TRT и Kubernetes. Проектирует векторные поисковые пайплайны с векторными хранилищами.

задачи

  • Владеть inference-инфраструктурой от начала до конца: оптимизировать задержки, пропускную способность и затраты для флота моделей.
  • Строить и масштабировать сервисы моделей с TensorZero, vLLM/SGlang/TRT и Kubernetes.
  • Проектировать и поддерживать векторные поисковые пайплайны с векторными хранилищами.
  • Определять метрики поддержки (SLAs, FCR, deflection) и KPI здоровья сервиса.
  • Превращать исследования в продукт: брать экспериментальные модели от команды исследований, определять готовность к продакшену и запускать — форматирование, параметры сэмплинга, деплой, всё целиком.

требования

  • 3+ года запуска высокопроизводительных ML-систем в продакшене, не просто тренировочные ноутбуки.
  • Глубокий практический опыт оптимизации inference — отлаживали всплески задержек и знаете разницу между теоретической и реальной пропускной способностью.
  • Уверенно работаете по всему стеку: от CUDA-ядер до Kubernetes-манифестов и дашбордов Grafana.
  • Будет плюсом опыт с Rust, кастомными Triton-ядрами, бенчмарками, и английский от B2.

условия

  • Трудоустройство по ТК страны.
  • Релокация.

прозрачные зарплаты в IT

Анонимные данные по зарплатам и грейдам

Посмотреть
График динамики зарплат
Telegram Добавить в отклики