Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.

NDA

сегодня

infrastructure engineer

выше рынка на 98,5%

вакансия 640 000 ₽

в среднем 322 361 ₽

Добавь резюме в профиле, чтобы видеть % мэтча с вакансией

генерация резюме

Добавьте резюме в профиль, чтобы сгенерировать временное CV под эту вакансию

сопроводительное письмо

Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

B2B только с юрлицом вне России, Беларуси и Украины, без бизнес-инкубаторов

Команда строит высокопроизводительную локальную платформу для инференса LLM на базе GPU-кластера из игровых десктопов. Роль посвящена сервированию, оркестрации, надёжности и автоматизированному тестированию открытых моделей (Gemma, Qwen, Whisper и т.п.).

задачи

Запускать и масштабировать сервисы LLM с помощью Ray/Ray Serve, Docker и Linux;
Развёртывать модели через vLLM/Hugging Face и предоставлять их через высокопроизводительные API, совместимые с OpenAI;
Оптимизировать использование GPU, батчинг запросов, задержки и пропускную способность для максимальной эффективности оборудования;
Обеспечивать стабильность системы через мониторинг, обработку сбоев и автоматизированное восстановление;
Владеть полным циклом развёртывания моделей: версионирование, обновления, бенчмаркинг и откаты;
Предоставлять инфраструктурную поддержку внутренним командам, строящим агентов, автоматизацию и AI-воркфлоу;
Сотрудничать с QA для внедрения end-to-end автоматизированного тестирования LLM-воркфлоу;
Проверять стабильность, доступность, скорость и отзывчивость моделей;
Поддерживать фреймворки "LLM-as-a-judge" и автоматизированные пайплайны оценки качества вывода;
Вносить вклад в стабильность поведения агентов через инженерию промптов и принуждение к ограничениям;
Поддерживать наборы промптов и регрессионные бенчмарки для раннего выявления падения производительности;
Поддерживать интеграцию с фреймворками агентов вроде LangGraph и n8n;
Внедрять телеметрию для обратной связи по оптимизации промптов, роутинга и выбора моделей.

требования

Знание Windows, Linux, Docker, CI/CD, сетей (балансировка нагрузки, роутинг, обнаружение сервисов), Python, Kubernetes;
Опыт с vLLM, Hugging Face, токенизацией, квантизацией;
Работа с распределёнными системами: кластеры Ray, оркестрация;
Опыт с аппаратной частью: CUDA, управление VRAM, мульти-GPU;
Backend и API: FastAPI, авторизация, лимитирование скорости, тюнинг производительности;
Наблюдаемость: метрики в реальном времени, логи, дашборды (Grafana/Prometheus);
Английский B2;
Родной русский;
Будет плюсом опыт с инженерией промптов и фреймворками агентов.

условия

B2B контракт с частной юридической компанией кандидата, зарегистрированной вне России, Беларуси и Украины (без бизнес-инкубаторов).

навыки

linux docker python kubernetes ray vllm hugging face cuda fastapi grafana prometheus cicd

Добавить в отклики

Telegram В отклики