nlp engineer
генерация резюме под вакансию
сопроводительное письмо
описание
Команда GigaChat Pretrain Data занимается подготовкой данных для обучения моделей GigaChat и GigaChat Vision. Работа включает обработку более 40 Пб сырых данных для создания качественных датасетов, на которых обучаются языковые модели.
задачи
- Генерировать синтетические данные: математику, код и произвольную синтетику на основе документов из Web;
- Исследовать токенизацию и её влияние на качество модели;
- Решать задачи кластеризации миллиардов документов;
- Исследовать факторы, влияющие на качество текстовых данных;
- Генерировать данные для обучения VLM;
- Разрабатывать новые алгоритмы парсинга HTML и исследовать их влияние на качество модели;
- Исследовать зависимости между данными для предобучения и агентными способностями итоговой модели;
- Разрабатывать стабильную инфраструктуру для проведения сотен и тысяч экспериментов над данными.
требования
- Коммерческий релевантный опыт в NLP или построении инфраструктуры для данных от двух лет;
- Будет плюсом навыки работы с генеративными AI-моделями, опыт создания AI-агентов, опыт использования GigaChat, Kandinsky и аналогов в продуктах, инструментальное владение AI для анализа, генерации и автоматизации, опыт работы с MapReduce системами.
условия
- Комфортный современный офис рядом с м. Кутузовская;
- Ежегодный пересмотр зарплаты, годовая премия;
- Корпоративный спортзал и зоны отдыха;
- Система обучения для профессионального и карьерного развития;
- Расширенный полис ДМС с первого дня работы и страхование для семьи;
- Льготная программа ипотеки для сотрудников;
- Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров;
- Вознаграждение за рекомендацию друзей в команду Сбера.
навыки
Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.