Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.
infrastructure engineer
генерация резюме
сопроводительное письмо
описание
Команда строит высокопроизводительную локальную платформу для инференса LLM на базе GPU-кластера из игровых десктопов. Роль посвящена сервированию, оркестрации, надёжности и автоматизированному тестированию открытых моделей (Gemma, Qwen, Whisper и т.п.).
задачи
- Запускать и масштабировать сервисы LLM с помощью Ray/Ray Serve, Docker и Linux;
- Развёртывать модели через vLLM/Hugging Face и предоставлять их через высокопроизводительные API, совместимые с OpenAI;
- Оптимизировать использование GPU, батчинг запросов, задержки и пропускную способность для максимальной эффективности оборудования;
- Обеспечивать стабильность системы через мониторинг, обработку сбоев и автоматизированное восстановление;
- Владеть полным циклом развёртывания моделей: версионирование, обновления, бенчмаркинг и откаты;
- Предоставлять инфраструктурную поддержку внутренним командам, строящим агентов, автоматизацию и AI-воркфлоу;
- Сотрудничать с QA для внедрения end-to-end автоматизированного тестирования LLM-воркфлоу;
- Проверять стабильность, доступность, скорость и отзывчивость моделей;
- Поддерживать фреймворки "LLM-as-a-judge" и автоматизированные пайплайны оценки качества вывода;
- Вносить вклад в стабильность поведения агентов через инженерию промптов и принуждение к ограничениям;
- Поддерживать наборы промптов и регрессионные бенчмарки для раннего выявления падения производительности;
- Поддерживать интеграцию с фреймворками агентов вроде LangGraph и n8n;
- Внедрять телеметрию для обратной связи по оптимизации промптов, роутинга и выбора моделей.
требования
- Знание Windows, Linux, Docker, CI/CD, сетей (балансировка нагрузки, роутинг, обнаружение сервисов), Python, Kubernetes;
- Опыт с vLLM, Hugging Face, токенизацией, квантизацией;
- Работа с распределёнными системами: кластеры Ray, оркестрация;
- Опыт с аппаратной частью: CUDA, управление VRAM, мульти-GPU;
- Backend и API: FastAPI, авторизация, лимитирование скорости, тюнинг производительности;
- Наблюдаемость: метрики в реальном времени, логи, дашборды (Grafana/Prometheus);
- Английский B2;
- Родной русский;
- Будет плюсом опыт с инженерией промптов и фреймворками агентов.
условия
- B2B контракт с частной юридической компанией кандидата, зарегистрированной вне России, Беларуси и Украины (без бизнес-инкубаторов).
навыки