Data Engineer

в пределах рынка

вакансия 204 996 ₽

в среднем 201 398 ₽

мэтч

Загрузи резюме, чтобы видеть мэтчи с вакансией

генерация резюме под вакансию

Загрузи резюме в профиль, чтобы сгенерировать временное CV под эту вакансию

сопроводительное письмо

Загрузи резюме в профиль, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Команда создает поисковый сервис для ответов на запросы пользователей на естественном языке, предоставляя GigaChat и другим LLM доступ к актуальной информации из интернета.

задачи

Проектировать и развивать end-to-end пайплайны данных для поисковой платформы: ingest, batch/micro-batch обработка, нормализация, дедупликация, лемматизация, обогащение и подготовка данных к индексации;
Интегрировать новые источники и мультимодальные данные, обеспечивая корректность, полноту и воспроизводимость загрузки;
Развивать S3 Data LakeHouse и хранилища данных для задач векторного, полнотекстового и гибридного поиска;
Оптимизировать Spark-процессы на Kubernetes, в частности производительность, стоимость хранения, потребление ресурсов и стабильность выполнения;
Обеспечивать надежность пайплайнов (мониторинг, качество данных, диагностика инцидентов, контроль SLA);
Внедрять CI/CD, тестирование и observability для data pipelines;
Работать вместе с ML-инженерами, бэкенд-разработчиками и аналитиками над улучшением качества поиска.

требования

Опыт работы в роли Data Engineer, ML Engineer или Data Platform Engineer от 3 лет;
Продвинутое владение Python и SQL;
Практический опыт работы с Airflow и Spark/PySpark в production;
Опыт разработки и оптимизации batch или streaming/micro-batch пайплайнов для больших объемов данных (от 100 TB до PB+);
Уверенное понимание принципов распределенного хранения данных и распределенных вычислений;
Опыт анализа производительности Spark jobs: shuffle, skew, partitioning, memory, resource usage;
Опыт построения или развития высоконагруженных платформ обработки данных;
Умение проектировать Data LakeHouse или Data Management Platform;
Опыт работы с Kubernetes и S3-compatible storage;
Понимание Apache Iceberg и современных форматов данных: Parquet, partitioning, schema evolution, compaction;
Опыт построения мониторинга, алертов и CI/CD для пайплайнов данных;
Будет плюсом опыт работы с поисковыми движками (ElasticSearch, OpenSearch, Vespa), Cassandra или другими распределенными NoSQL-хранилищами, Kafka, понимание задач векторного поиска (embeddings, ANN/HNSW, hybrid search), опыт работы с GPU-инференсом моделей, PyTorch, облачными платформами (AWS, Yandex Cloud, SberCloud) и observability стеком (Prometheus, Grafana).

условия

Стабильный оклад и премии по результатам работы, ежегодный пересмотр зарплаты;
Комфортный современный офис рядом с м. Кутузовская;
Корпоративный спортзал и зоны отдыха;
Уникальная система обучения для профессионального и карьерного развития;
Программа адаптации и помощь руководителя на старте;
Расширенный ДМС и льготное страхование семьи;
Гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ;
Бесплатная подписка СберПрайм, скидки на продукты компаний-партнеров;
Вознаграждение за рекомендацию друзей в команду;
Корпоративная пенсионная программа.

навыки

python sql airflow spark pyspark kubernetes s3 data lakehouse ci/cd data pipelines apache iceberg parquet batch processing streaming

Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.

зарплата по оценке AI

Добавить в трекер

Откликнуться В трекер