вчера

Data Engineer

в пределах рынка
вакансия 204 996 ₽
в среднем 201 398 ₽
Загрузи резюме, чтобы видеть мэтчи с вакансией

генерация резюме под вакансию

Загрузи резюме в профиль, чтобы сгенерировать временное CV под эту вакансию

сопроводительное письмо

Загрузи резюме в профиль, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Команда создает поисковый сервис для ответов на запросы пользователей на естественном языке, предоставляя GigaChat и другим LLM доступ к актуальной информации из интернета.

задачи

  • Проектировать и развивать end-to-end пайплайны данных для поисковой платформы: ingest, batch/micro-batch обработка, нормализация, дедупликация, лемматизация, обогащение и подготовка данных к индексации;
  • Интегрировать новые источники и мультимодальные данные, обеспечивая корректность, полноту и воспроизводимость загрузки;
  • Развивать S3 Data LakeHouse и хранилища данных для задач векторного, полнотекстового и гибридного поиска;
  • Оптимизировать Spark-процессы на Kubernetes, в частности производительность, стоимость хранения, потребление ресурсов и стабильность выполнения;
  • Обеспечивать надежность пайплайнов (мониторинг, качество данных, диагностика инцидентов, контроль SLA);
  • Внедрять CI/CD, тестирование и observability для data pipelines;
  • Работать вместе с ML-инженерами, бэкенд-разработчиками и аналитиками над улучшением качества поиска.

требования

  • Опыт работы в роли Data Engineer, ML Engineer или Data Platform Engineer от 3 лет;
  • Продвинутое владение Python и SQL;
  • Практический опыт работы с Airflow и Spark/PySpark в production;
  • Опыт разработки и оптимизации batch или streaming/micro-batch пайплайнов для больших объемов данных (от 100 TB до PB+);
  • Уверенное понимание принципов распределенного хранения данных и распределенных вычислений;
  • Опыт анализа производительности Spark jobs: shuffle, skew, partitioning, memory, resource usage;
  • Опыт построения или развития высоконагруженных платформ обработки данных;
  • Умение проектировать Data LakeHouse или Data Management Platform;
  • Опыт работы с Kubernetes и S3-compatible storage;
  • Понимание Apache Iceberg и современных форматов данных: Parquet, partitioning, schema evolution, compaction;
  • Опыт построения мониторинга, алертов и CI/CD для пайплайнов данных;
  • Будет плюсом опыт работы с поисковыми движками (ElasticSearch, OpenSearch, Vespa), Cassandra или другими распределенными NoSQL-хранилищами, Kafka, понимание задач векторного поиска (embeddings, ANN/HNSW, hybrid search), опыт работы с GPU-инференсом моделей, PyTorch, облачными платформами (AWS, Yandex Cloud, SberCloud) и observability стеком (Prometheus, Grafana).

условия

  • Стабильный оклад и премии по результатам работы, ежегодный пересмотр зарплаты;
  • Комфортный современный офис рядом с м. Кутузовская;
  • Корпоративный спортзал и зоны отдыха;
  • Уникальная система обучения для профессионального и карьерного развития;
  • Программа адаптации и помощь руководителя на старте;
  • Расширенный ДМС и льготное страхование семьи;
  • Гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ;
  • Бесплатная подписка СберПрайм, скидки на продукты компаний-партнеров;
  • Вознаграждение за рекомендацию друзей в команду;
  • Корпоративная пенсионная программа.

Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.

прозрачные зарплаты в IT

Анонимные данные по зарплатам и грейдам

Посмотреть
График динамики зарплат
Откликнуться Добавить в трекер

Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.