Команда синтеза речи Яндекса создаёт технологии для продуктов вроде перевода видео, аудиокниг и голоса Алисы. Сейчас индустрия переходит от малых данных к большим: новые модели позволяют петь чужие песни вашим голосом или синтезировать речь по короткой записи, что требует обработки сотен тысяч часов аудио и текстов.
Специалисту предстоит работать с петабайтами аудио: разрабатывать системы хранения и быстрого доступа к данным для ML-разработчиков, масштабировать пайплайны сбора информации для поддержки разных языков и источников, а также оценивать качество данных через ML-модели (детекция шума, музыки, синтетической речи, несовпадения текста и аудио).