Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории
ML Engineer
сопроводительное письмо
описание
Команда строит высокопроизводительную инфраструктуру инференса для больших нейронных сетей (LLM/Transformers) — Qwen, DeepSeek и других моделей нового поколения. Запускают их максимально эффективно: оптимизируют throughput и latency, внедряют передовые методы вроде спекулятивного декодирования и обеспечивают стабильную работу на GPU-кластерах в облаке и on-prem.
задачи
- Оптимизировать throughput и latency при генерации LLM
- Внедрять техники вроде speculative decoding, continuous batching и KV-cache
- Заниматься тюнингом фреймворков (PyTorch, TensorRT, vLLM и других)
- Работать с GPU-кластерами и профилированием узких мест
- Разрабатывать и развивать распределённые системы для инференса больших моделей
- Интегрировать с Kubernetes и сервис-мешами
- Работать с балансировщиками и автоматическим масштабированием
- Поддерживать multi-node-сценарии (tensor/pipeline parallel)
- Писать CUDA/Triton-kernels
- Профилировать и оптимизировать память и вычисления
- Создавать кастомные ядра и операторы
- Работать с NVLink, RDMA и другими технологиями ускорения
- Разрабатывать API, SDK и инструменты для разработчиков
- Автоматизировать развёртывание и обновление моделей
- Поддерживать on-prem-сценарии у клиентов и интегрировать с облачной инфраструктурой
требования
- Понимать устройство трансформеров и LLM-инференса: attention, кеширование, последовательная генерация
- Иметь опыт оптимизации под GPU: CUDA/Triton, профилирование, работа с Tensor Cores
- Уметь работать с PyTorch, JAX, TensorRT, HuggingFace TGI или vLLM
- Обладать навыками разработки на Python и одном из системных языков (C++ или Go)
- Строить и эксплуатировать высоконагруженные сервисы (Kubernetes, gRPC, observability)
- Будет плюсом реальный опыт внедрения speculative decoding, prefix caching, continuous batching, работы с DeepSpeed-Inference, FasterTransformer или аналогичными runtime, знания алгоритмов распределённого инференса (tensor/pipeline parallel), опыта интеграции таких систем в production-платформу (Envoy, autoscaling, CI/CD) и проведения fine-tuning и дообучения моделей под нужды инференса (LoRA, QLoRA, PEFT)
условия
- Расширенная медицинская страховка с первого месяца (стоматология, чекапы, неотложка за рубежом, лечение онкологии, страхование от несчастных случаев)
- Психотерапия в офисе или онлайн
- Лазерная коррекция зрения через год
- Ведение беременности и роды через два года
- Страховка для родственников по системе 80/20
- Внутренняя образовательная платформа, менторство, программы для руководителей
- Оплата конференций как спикеру или участнику
- Внутренние проекты для обмена экспертизой
- Спортзалы в офисах, корпоративный тренер, скидки в фитнес-клубах, бассейнах, йоге, скалодромах
- Спортивный клуб и команды Яндекса
- Гибкий график
- Льготные жилищные займы для сотрудников в российских офисах
- Страхование для детей, детские дни в офисе, подарки на рождение, чекапы при планировании беременности