Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.

NDA
сегодня

infrastructure engineer

выше рынка на 98,5%
вакансия 640 000 ₽
в среднем 322 361 ₽
мэтч
Добавь резюме в профиле, чтобы видеть % мэтча с вакансией

генерация резюме

Добавьте резюме в профиль, чтобы сгенерировать временное CV под эту вакансию

сопроводительное письмо

Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

B2B только с юрлицом вне России, Беларуси и Украины, без бизнес-инкубаторов

Команда строит высокопроизводительную локальную платформу для инференса LLM на базе GPU-кластера из игровых десктопов. Роль посвящена сервированию, оркестрации, надёжности и автоматизированному тестированию открытых моделей (Gemma, Qwen, Whisper и т.п.).

задачи

  • Запускать и масштабировать сервисы LLM с помощью Ray/Ray Serve, Docker и Linux;
  • Развёртывать модели через vLLM/Hugging Face и предоставлять их через высокопроизводительные API, совместимые с OpenAI;
  • Оптимизировать использование GPU, батчинг запросов, задержки и пропускную способность для максимальной эффективности оборудования;
  • Обеспечивать стабильность системы через мониторинг, обработку сбоев и автоматизированное восстановление;
  • Владеть полным циклом развёртывания моделей: версионирование, обновления, бенчмаркинг и откаты;
  • Предоставлять инфраструктурную поддержку внутренним командам, строящим агентов, автоматизацию и AI-воркфлоу;
  • Сотрудничать с QA для внедрения end-to-end автоматизированного тестирования LLM-воркфлоу;
  • Проверять стабильность, доступность, скорость и отзывчивость моделей;
  • Поддерживать фреймворки "LLM-as-a-judge" и автоматизированные пайплайны оценки качества вывода;
  • Вносить вклад в стабильность поведения агентов через инженерию промптов и принуждение к ограничениям;
  • Поддерживать наборы промптов и регрессионные бенчмарки для раннего выявления падения производительности;
  • Поддерживать интеграцию с фреймворками агентов вроде LangGraph и n8n;
  • Внедрять телеметрию для обратной связи по оптимизации промптов, роутинга и выбора моделей.

требования

  • Знание Windows, Linux, Docker, CI/CD, сетей (балансировка нагрузки, роутинг, обнаружение сервисов), Python, Kubernetes;
  • Опыт с vLLM, Hugging Face, токенизацией, квантизацией;
  • Работа с распределёнными системами: кластеры Ray, оркестрация;
  • Опыт с аппаратной частью: CUDA, управление VRAM, мульти-GPU;
  • Backend и API: FastAPI, авторизация, лимитирование скорости, тюнинг производительности;
  • Наблюдаемость: метрики в реальном времени, логи, дашборды (Grafana/Prometheus);
  • Английский B2;
  • Родной русский;
  • Будет плюсом опыт с инженерией промптов и фреймворками агентов.

условия

  • B2B контракт с частной юридической компанией кандидата, зарегистрированной вне России, Беларуси и Украины (без бизнес-инкубаторов).

прозрачные зарплаты в IT

Анонимные данные по зарплатам и грейдам

Посмотреть
График динамики зарплат
Telegram Добавить в отклики

Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.