Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории
mlops
сопроводительное письмо
описание
Команда занимается inference-инфраструктурой: оптимизирует задержки, пропускную способность и затраты для флота моделей. Строит и масштабирует сервисы моделей с TensorZero, vLLM/SGlang/TRT и Kubernetes. Проектирует векторные поисковые пайплайны с векторными хранилищами.
задачи
- Владеть inference-инфраструктурой от начала до конца: оптимизировать задержки, пропускную способность и затраты для флота моделей.
- Строить и масштабировать сервисы моделей с TensorZero, vLLM/SGlang/TRT и Kubernetes.
- Проектировать и поддерживать векторные поисковые пайплайны с векторными хранилищами.
- Определять метрики поддержки (SLAs, FCR, deflection) и KPI здоровья сервиса.
- Превращать исследования в продукт: брать экспериментальные модели от команды исследований, определять готовность к продакшену и запускать — форматирование, параметры сэмплинга, деплой, всё целиком.
требования
- 3+ года запуска высокопроизводительных ML-систем в продакшене, не просто тренировочные ноутбуки.
- Глубокий практический опыт оптимизации inference — отлаживали всплески задержек и знаете разницу между теоретической и реальной пропускной способностью.
- Уверенно работаете по всему стеку: от CUDA-ядер до Kubernetes-манифестов и дашбордов Grafana.
- Будет плюсом опыт с Rust, кастомными Triton-ядрами, бенчмарками, и английский от B2.
условия
- Трудоустройство по ТК страны.
- Релокация.
навыки