Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории
ml engineer
сопроводительное письмо
описание
Команда ML-инженеров GigaChat Data готовит данные для обучения всей линейки моделей LLM GigaChat, включая GigaChat, GigaChat TTS, GigaChat Vision, GigaChat Audio, Giga Embeddings и другие, а также для их адаптации под базовые модели, продукты B2C вроде веб-версии GigaChat и персонализированных ассистентов, внутренние банковские задачи по автоматизации обработки документов, анализу финансовых данных и поддержке сотрудников, плюс кастомные решения для внешних корпоративных клиентов. Вам нужно будет интегрировать TTS в GigaChat и создать voice-to-voice GigaChat с возможностью понимать и генерировать речь, собирать и готовить аудио-данные для обучения, улучшать звуковые пайплайны для сбора датасетов вроде распознавания речи, VAD, денойзеров, диаризации, моделей описания эмоций и аудио-описаний, участвовать в экспериментах с различными архитектурами TTS вроде decoder-only и thinker-talker и оценивать результаты, организовывать субъективное и объективное тестирование синтеза через MOS-модели, SBS-оценку людьми и сбор фидбэка, сравнивать синтез с лучшими на рынке вроде 11Labs, OpenAI Voice mode, Yandex SpeechKit, Bark, Grok, VALL-E и готовить рекомендации по улучшению.
требования
- Отлично знаете Python и работали с современными DL-фреймворками вроде PyTorch, TensorFlow
- Есть опыт с технологиями TTS — создание базовых TTS-моделей, голосовых ассистентов или внедрения TTS-модулей в продукты, понимаете архитектуры нейросетевых моделей речи от seq2seq до LLM-подходов
- Работали с системами ASR и аудиопайплайнами — распознавание речи вроде OpenAI Whisper, Facebook Wav2Vec 2.0, NVIDIA NeMo Conformer, SpeechBrain, GigaAM, VAD вроде WebRTC VAD, Silero VAD, шумоподавлением вроде RNNoise, диаризацией вроде pyannote.audio и другими инструментами обработки аудио
- Знаете метрики качества синтеза речи и методы оценки вроде MOS, CMOS, side-by-side, AB-тестирования и E2E-оценок
- Будет плюсом работа с мультимодальными моделями вроде ElevenLabs, Bark, VALL-E, Qwen 2.5 Omni, глубокое понимание TTS-пайплайна от предобработки данных до вокодера, опыт с seq2seq-архитектурами вроде Tacotron 2, FastSpeech 2, Glow-TTS, decoder-only вроде VALL-E, WaveGPT, diffusion- и flow-моделями вроде Grad-TTS, DiffWave, Flowtron и вокодерами вроде HiFi-GAN, WaveGlow, WaveRNN
условия
- Ежегодный пересмотр зарплаты, годовой бонус
- Корпоративный спортзал и зоны отдыха
- Более 400 образовательных программ СберУниверситета
- Расширенный ДМС, льготное страхование для семьи, корпоративная пенсионная программа
- Гибкий дисконт по ипотечному кредиту равный 1/3 ключевой ставки ЦБ
- Бесплатная подписка СберПрайм+, скидки на продукты партнеров
- Вознаграждение за рекомендацию друзей