Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.
mlops engineer
генерация резюме
сопроводительное письмо
описание
SS-infra (Security Services Infrastructure) — команда, занимающаяся развитием и построением инфраструктуры в составе Security Services. Строит, автоматизирует и защищает инфраструктуру для «красных» и «синих» команд (Penetration Testing, Red Teaming, Incident Response, Threat Hunting и др.). Покрывает весь спектр DevOps/SecOps/DevSecOps.
задачи
- Проектировать архитектуру AI-систем (от прототипа до production);
- Внедрять GPU-планировщик (Kueue, Volcano или аналог) для шаринга нагрузки на одном железе;
- Проектировать и поддерживать ML-пайплайны (обучение, валидация, деплой моделей);
- Настраивать CI/CD для моделей: версионирование данных, моделей, экспериментов;
- Мониторить production-модели (drift detection, performance tracking);
- Деплоить и оптимизировать LLM / inference-серверы (vLLM, TGI, Triton);
- Контейнеризировать и оркестрировать сервисы (Docker, K8s);
- Настраивать CI/CD (GitLab CI, Jenkins);
- Использовать IaC (Terraform, Ansible);
- Настраивать мониторинг и observability (Prometheus, Grafana, Loki);
- Автоматизировать рутинные операции;
- Обеспечивать выполнение требований ИБ в отношении инфраструктуры;
- Вести техническую документацию по вверенным ресурсам.
требования
- Бэкграунд в ML/DS — понимание процессов обучения, инференса, работы с данными;
- Опыт от 2 лет в MLOps / DevOps с ML-спецификой;
- Docker, Kubernetes (Helm, управление кластерами) — production-опыт;
- Уверенное владение Python;
- CI/CD (GitLab CI, Jenkins, методология GitOps);
- Глубокие знания Linux;
- Terraform / Ansible для IaC;
- Опыт построения или управления GPU-кластерами (NVIDIA, CUDA, nvidia-container-toolkit);
- Опыт с GPU-планировщиками (Kueue, Volcano, Run:ai);
- Опыт с MLflow, Kubeflow, Airflow или аналогами;
- Высшее техническое образование;
- Будет плюсом опыт работы с LLM / inference-серверами (vLLM, TGI, Triton), знакомство со стеком команды (Gitlab, Nginx, Kafka, RabbitMQ, Elasticsearch, Loki, Grafana, Vault, Keycloak), понимание специфики multi-tenant GPU-шаринга (MIG, MPS, time-slicing), опыт работы с Talos OS / Flatcar и опыт построения гетерогенной инфраструктуры (on-premise + облака).
условия
- ДМС и страхование жизни (включая детей) с первого месяца;
- Оплата мобильной связи;
- Обучение: митапы, конференции, сертификации, иностранные языки, курсы по развитию навыков;
- Ежемесячная доплата на питание;
- 2 Спортзала и сауна в офисе;
- Свой ресторан и бар;
- Врач и массаж в офисе;
- Программа релокации в HQ для кандидатов из регионов.
навыки