Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.
cv engineer
генерация резюме
сопроводительное письмо
описание
Команда GigaChat Pretrain Data готовит pretrain данные для GigaChat и GigaChat Vision. Pretrain данные - это фундамент, с которого начинается путь современной LLM модели и то, от чего наиболее зависит ее итоговое качество. Сырых данных более 40Пб и основная задача заключается в том, чтобы из этого хаоса сделать датасет, на котором будет обучена лучшая LLM в России.
задачи
- Поддерживать данные для обучения VLM на кластере YTSaurus;
- Строить удобную платформу для эффективного анализа/обработки данных (фильтрация, дедупликация и пр.);
- Автоматизировать процессы через Airflow;
- Искать и синтезировать данные для обучения VLM (OCR/Charts&Tables/Grounding&Counting/General и тд);
- Исследовать пайплайны по созданию чистых и разнообразных датасетов (на примере FineVision);
- Обучать VLM на подготовленных данных;
- Проводить исследования релевантных intrain метрик, бенчмарков для замера качества.
требования
- Опыт построения дата пайплайнов и data quality процессов;
- Опыт работы в production ml команде (большие нагрузки как преимущество);
- Понимание задач CV и современных подходов в больших языковых моделях;
- Опыт решения задач, связанных с влиянием данных на качество VLM;
- Практический опыт работы с VLM.
условия
- Годовая премия;
- Корпоративный спортзал и зоны отдыха;
- Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития;
- Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа;
- Ипотека для сотрудников по дисконтной программе;
- Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров;
- Вознаграждение за рекомендацию друзей в команду Сбера.
навыки