Сбер
30 янв

ML инженер

выше рынка на 40,7%
вакансия 434 500 ₽
в среднем 308 880 ₽
мэтч
Добавь резюме в профиле, чтобы видеть % мэтча с вакансией

сопроводительное письмо

Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Команда ML-инженеров GigaChat Data готовит данные для обучения всей линейки моделей LLM GigaChat (GigaChat, GigaChat TTS, GigaChat Vision, GigaChat Audio, Giga Embeddings и др.). Собирают данные как для базовых моделей, так и для их адаптации под конкретные сценарии: core модели, продукты B2C вроде веб-версии GigaChat и персонализированных ассистентов, внутренние банковские задачи вроде автоматизации обработки документов и анализа финансовых данных, кастомные решения для внешних заказчиков.

Вам нужно будет готовить данные для обучения моделей LLM GigaChat, работать с технологиями TTS для создания базовых моделей и голосовых ассистентов, внедрять TTS-модули в продукты, понимать архитектуры нейросетевых моделей речи от seq2seq до LLM-подходов, заниматься системами ASR и аудиопайплайнами с инструментами вроде OpenAI Whisper, VAD, шумоподавлением и диаризацией, знать метрики качества синтеза речи и методы их оценки вроде MOS, CMOS и AB-тестирования.

требования

  • Отлично знаете Python и работаете с DL-фреймворками (PyTorch, TensorFlow)
  • Есть опыт с технологиями TTS – создание базовых моделей, голосовых ассистентов или внедрение TTS в продукты, понимаете архитектуры нейросетей речи от seq2seq до LLM
  • Работали с системами ASR и аудиопайплайнами – распознавание речи (OpenAI Whisper, Facebook Wav2Vec 2.0, NVIDIA NeMo Conformer, SpeechBrain, GigaAM), VAD (WebRTC VAD, Silero VAD), шумоподавлением (RNNoise), диаризацией (pyannote.audio) и другими инструментами обработки аудио
  • Знаете метрики качества синтеза речи и методы оценки: MOS, CMOS, side-by-side, SBS, AB-тестирование и E2E-оценки
  • Будет плюсом работа с мультимодальными моделями (ElevenLabs, Bark, VALL-E, Qwen 2.5 Omni), глубокое понимание TTS-пайплайна от предобработки данных до вокодера, опыт с seq2seq-архитектурами (Tacotron 2, FastSpeech 2, Glow-TTS), decoder-only (VALL-E, WaveGPT), diffusion- и flow-моделями (Grad-TTS, DiffWave, Flowtron) и вокодерами (HiFi-GAN, WaveGlow, WaveRNN)

условия

  • Комфортный офис у м. Кутузовская
  • Ежегодный пересмотр зарплаты и годовой бонус
  • Корпоративный спортзал и зоны отдыха
  • Более 400 образовательных программ СберУниверситета
  • Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • Гибкий дисконт по ипотеке (1/3 ключевой ставки ЦБ)
  • Бесплатная СберПрайм+, скидки у партнёров
  • Вознаграждение за рекомендацию друзей

прозрачные зарплаты в IT

Анонимные данные по зарплатам и грейдам

Посмотреть
График динамики зарплат
Откликнуться Добавить в отклики