Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.

NDA
сегодня

data engineer

ниже рынка на 32,6%
вакансия 230 000 ₽
в среднем 341 095 ₽
мэтч
Добавь резюме в профиле, чтобы видеть % мэтча с вакансией

генерация резюме

Добавьте резюме в профиль, чтобы сгенерировать временное CV под эту вакансию

сопроводительное письмо

Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Подготовка решений к переносу в закрытый контур заказчика

Разработка data lakehouse-решения под NDA для крупного заказчика. Работа с большими объёмами данных, многоуровневой архитектурой и строгими требованиями к качеству и производительности пайплайнов.

задачи

  • Разрабатывать и оптимизировать ETL/ELT-пайплайны под большие объёмы;
  • Парсить, валидировать и трансформировать XML-данные;
  • Строить слои raw → processed → curated (Parquet + S3);
  • Реализовывать нормализацию, дедупликацию и формирование "золотых" записей;
  • Тюнить производительность и обеспечивать стабильность в продакшене;
  • Подготавливать решения к переносу в закрытый контур заказчика;
  • Взаимодействовать с аналитиками, архитектором, DevOps и командой проекта.

требования

  • Уверенное владение Python (ООП, типизация, работа с памятью);
  • Опыт ETL/ELT;
  • Опыт построения пайплайнов в продакшене (от 1–2 лет активной поддержки);
  • Работа с PySpark / pandas / аналогами и большими объёмами;
  • Понимание форматов Parquet, columnar storage (partitioning, compression, schema evolution);
  • Работа с хранилищами S3 или аналогами (MinIO, Yandex Object Storage);
  • Знание архитектуры Data Lake / Lakehouse, multi-layer: raw → processed → curated;
  • Навыки Data Quality: нормализация, дедупликация, формирование golden record / master data;
  • Продвинутый SQL (оконные функции, CTE, оптимизация запросов) в PostgreSQL, Greenplum, ClickHouse или аналогах;
  • Оркестрация с Apache Airflow (или Dagster, Prefect, Temporal);
  • DevOps: Docker, CI/CD (GitLab CI, GitHub Actions, Jenkins), Git;
  • Облака: Yandex Cloud / AWS / GCP (IAM, сети, compute/storage);
  • Парсинг/валидация XML с lxml, ElementTree или аналогами;
  • Будет плюсом Apache Spark (глубокая оптимизация: shuffle, partitioning, broadcast joins, динамическое выделение ресурсов), Trino / Presto, табличные форматы (Apache Iceberg, Delta Lake, Hudi), опыт в закрытых контурах / on-premise / air-gapped средах, понимание Data Mesh / Data Fabric, написание unit/integration тестов для пайплайнов (pytest, Great Expectations, dbt tests).

условия

  • Трудоустройство: ТК РФ или ИП.

прозрачные зарплаты в IT

Анонимные данные по зарплатам и грейдам

Посмотреть
График динамики зарплат
Telegram Добавить в отклики

Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.