В Яндексе активно развивается направление ML-инфраструктуры — создаются инструменты, которые делают работу тысяч ML-инженеров удобнее и эффективнее. Ключевая система для подготовки данных и запуска обучений — это YT. Именно на её кластерах происходят загрузка и трансформация данных, а также обучение передовых моделей, таких как Yandex GPT-3 и Нейро.
Обучение моделей на тысячах GPU требует надёжной инфраструктуры. Необходимо уметь обрабатывать отказ хостов с помощью регулярных чекпойнтов объёмом в десятки терабайт и эффективно стримить данные со скоростью до 100 GB/s. Любые задержки в потоке ведут к простоям и недоиспользованию ресурсов.
Команда ищет инженера, который займётся созданием стабильной и удобной инфраструктуры для чтения и записи данных в YT в рамках ML-обучений.