Yandex Cloud
сегодня

ML Engineer

выше рынка на 38,0%
вакансия 428 200 ₽
в среднем 310 235 ₽
мэтч
Добавь резюме в профиле, чтобы видеть % мэтча с вакансией

сопроводительное письмо

Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Команда строит высокопроизводительную инфраструктуру инференса для больших нейронных сетей (LLM/Transformers) — Qwen, DeepSeek и других моделей нового поколения. Запускают их максимально эффективно: оптимизируют throughput и latency, внедряют передовые методы вроде спекулятивного декодирования и обеспечивают стабильную работу на GPU-кластерах в облаке и on-prem.

задачи

  • Оптимизировать throughput и latency при генерации LLM
  • Внедрять техники вроде speculative decoding, continuous batching и KV-cache
  • Заниматься тюнингом фреймворков (PyTorch, TensorRT, vLLM и других)
  • Работать с GPU-кластерами и профилированием узких мест
  • Разрабатывать и развивать распределённые системы для инференса больших моделей
  • Интегрировать с Kubernetes и сервис-мешами
  • Работать с балансировщиками и автоматическим масштабированием
  • Поддерживать multi-node-сценарии (tensor/pipeline parallel)
  • Писать CUDA/Triton-kernels
  • Профилировать и оптимизировать память и вычисления
  • Создавать кастомные ядра и операторы
  • Работать с NVLink, RDMA и другими технологиями ускорения
  • Разрабатывать API, SDK и инструменты для разработчиков
  • Автоматизировать развёртывание и обновление моделей
  • Поддерживать on-prem-сценарии у клиентов и интегрировать с облачной инфраструктурой

требования

  • Понимать устройство трансформеров и LLM-инференса: attention, кеширование, последовательная генерация
  • Иметь опыт оптимизации под GPU: CUDA/Triton, профилирование, работа с Tensor Cores
  • Уметь работать с PyTorch, JAX, TensorRT, HuggingFace TGI или vLLM
  • Обладать навыками разработки на Python и одном из системных языков (C++ или Go)
  • Строить и эксплуатировать высоконагруженные сервисы (Kubernetes, gRPC, observability)
  • Будет плюсом реальный опыт внедрения speculative decoding, prefix caching, continuous batching, работы с DeepSpeed-Inference, FasterTransformer или аналогичными runtime, знания алгоритмов распределённого инференса (tensor/pipeline parallel), опыта интеграции таких систем в production-платформу (Envoy, autoscaling, CI/CD) и проведения fine-tuning и дообучения моделей под нужды инференса (LoRA, QLoRA, PEFT)

условия

  • Расширенная медицинская страховка с первого месяца (стоматология, чекапы, неотложка за рубежом, лечение онкологии, страхование от несчастных случаев)
  • Психотерапия в офисе или онлайн
  • Лазерная коррекция зрения через год
  • Ведение беременности и роды через два года
  • Страховка для родственников по системе 80/20
  • Внутренняя образовательная платформа, менторство, программы для руководителей
  • Оплата конференций как спикеру или участнику
  • Внутренние проекты для обмена экспертизой
  • Спортзалы в офисах, корпоративный тренер, скидки в фитнес-клубах, бассейнах, йоге, скалодромах
  • Спортивный клуб и команды Яндекса
  • Гибкий график
  • Льготные жилищные займы для сотрудников в российских офисах
  • Страхование для детей, детские дни в офисе, подарки на рождение, чекапы при планировании беременности
Откликнуться Добавить в отклики