Data Engineer
генерация резюме под вакансию
сопроводительное письмо
описание
Команда создает поисковый сервис для ответов на запросы пользователей на естественном языке, предоставляя GigaChat и другим LLM доступ к актуальной информации из интернета.
задачи
- Проектировать и развивать end-to-end пайплайны данных для поисковой платформы: ingest, batch/micro-batch обработка, нормализация, дедупликация, лемматизация, обогащение и подготовка данных к индексации;
- Интегрировать новые источники и мультимодальные данные, обеспечивая корректность, полноту и воспроизводимость загрузки;
- Развивать S3 Data LakeHouse и хранилища данных для задач векторного, полнотекстового и гибридного поиска;
- Оптимизировать Spark-процессы на Kubernetes, в частности производительность, стоимость хранения, потребление ресурсов и стабильность выполнения;
- Обеспечивать надежность пайплайнов (мониторинг, качество данных, диагностика инцидентов, контроль SLA);
- Внедрять CI/CD, тестирование и observability для data pipelines;
- Работать вместе с ML-инженерами, бэкенд-разработчиками и аналитиками над улучшением качества поиска.
требования
- Опыт работы в роли Data Engineer, ML Engineer или Data Platform Engineer от 3 лет;
- Продвинутое владение Python и SQL;
- Практический опыт работы с Airflow и Spark/PySpark в production;
- Опыт разработки и оптимизации batch или streaming/micro-batch пайплайнов для больших объемов данных (от 100 TB до PB+);
- Уверенное понимание принципов распределенного хранения данных и распределенных вычислений;
- Опыт анализа производительности Spark jobs: shuffle, skew, partitioning, memory, resource usage;
- Опыт построения или развития высоконагруженных платформ обработки данных;
- Умение проектировать Data LakeHouse или Data Management Platform;
- Опыт работы с Kubernetes и S3-compatible storage;
- Понимание Apache Iceberg и современных форматов данных: Parquet, partitioning, schema evolution, compaction;
- Опыт построения мониторинга, алертов и CI/CD для пайплайнов данных;
- Будет плюсом опыт работы с поисковыми движками (ElasticSearch, OpenSearch, Vespa), Cassandra или другими распределенными NoSQL-хранилищами, Kafka, понимание задач векторного поиска (embeddings, ANN/HNSW, hybrid search), опыт работы с GPU-инференсом моделей, PyTorch, облачными платформами (AWS, Yandex Cloud, SberCloud) и observability стеком (Prometheus, Grafana).
условия
- Стабильный оклад и премии по результатам работы, ежегодный пересмотр зарплаты;
- Комфортный современный офис рядом с м. Кутузовская;
- Корпоративный спортзал и зоны отдыха;
- Уникальная система обучения для профессионального и карьерного развития;
- Программа адаптации и помощь руководителя на старте;
- Расширенный ДМС и льготное страхование семьи;
- Гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ;
- Бесплатная подписка СберПрайм, скидки на продукты компаний-партнеров;
- Вознаграждение за рекомендацию друзей в команду;
- Корпоративная пенсионная программа.
навыки
Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.