Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.

NDA

20 фев

mlops

ниже рынка на 30,1%

вакансия 240 000 ₽

в среднем 343 399 ₽

Добавь резюме в профиле, чтобы видеть % мэтча с вакансией

генерация резюме

Добавьте резюме в профиль, чтобы сгенерировать временное CV под эту вакансию

сопроводительное письмо

Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Нужен английский от B2. Гибрид во Франции или Узбекистане, есть релокация

Команда занимается inference-инфраструктурой: оптимизирует задержки, пропускную способность и затраты для флота моделей. Строит и масштабирует сервисы моделей с TensorZero, vLLM/SGlang/TRT и Kubernetes. Проектирует векторные поисковые пайплайны с векторными хранилищами.

задачи

Владеть inference-инфраструктурой от начала до конца: оптимизировать задержки, пропускную способность и затраты для флота моделей.
Строить и масштабировать сервисы моделей с TensorZero, vLLM/SGlang/TRT и Kubernetes.
Проектировать и поддерживать векторные поисковые пайплайны с векторными хранилищами.
Определять метрики поддержки (SLAs, FCR, deflection) и KPI здоровья сервиса.
Превращать исследования в продукт: брать экспериментальные модели от команды исследований, определять готовность к продакшену и запускать — форматирование, параметры сэмплинга, деплой, всё целиком.

требования

3+ года запуска высокопроизводительных ML-систем в продакшене, не просто тренировочные ноутбуки.
Глубокий практический опыт оптимизации inference — отлаживали всплески задержек и знаете разницу между теоретической и реальной пропускной способностью.
Уверенно работаете по всему стеку: от CUDA-ядер до Kubernetes-манифестов и дашбордов Grafana.
Будет плюсом опыт с Rust, кастомными Triton-ядрами, бенчмарками, и английский от B2.

условия

Трудоустройство по ТК страны.
Релокация.

навыки

mlops inference kubernetes tensorzero vllm sglang trt cuda grafana rust triton vector storages sla fcr kpi

Добавить в отклики

Telegram В отклики