Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.
data engineer
генерация резюме
сопроводительное письмо
описание
Разработка data lakehouse-решения под NDA для крупного заказчика. Работа с большими объёмами данных, многоуровневой архитектурой и строгими требованиями к качеству и производительности пайплайнов.
задачи
- Разрабатывать и оптимизировать ETL/ELT-пайплайны под большие объёмы;
- Парсить, валидировать и трансформировать XML-данные;
- Строить слои raw → processed → curated (Parquet + S3);
- Реализовывать нормализацию, дедупликацию и формирование "золотых" записей;
- Тюнить производительность и обеспечивать стабильность в продакшене;
- Подготавливать решения к переносу в закрытый контур заказчика;
- Взаимодействовать с аналитиками, архитектором, DevOps и командой проекта.
требования
- Уверенное владение Python (ООП, типизация, работа с памятью);
- Опыт ETL/ELT;
- Опыт построения пайплайнов в продакшене (от 1–2 лет активной поддержки);
- Работа с PySpark / pandas / аналогами и большими объёмами;
- Понимание форматов Parquet, columnar storage (partitioning, compression, schema evolution);
- Работа с хранилищами S3 или аналогами (MinIO, Yandex Object Storage);
- Знание архитектуры Data Lake / Lakehouse, multi-layer: raw → processed → curated;
- Навыки Data Quality: нормализация, дедупликация, формирование golden record / master data;
- Продвинутый SQL (оконные функции, CTE, оптимизация запросов) в PostgreSQL, Greenplum, ClickHouse или аналогах;
- Оркестрация с Apache Airflow (или Dagster, Prefect, Temporal);
- DevOps: Docker, CI/CD (GitLab CI, GitHub Actions, Jenkins), Git;
- Облака: Yandex Cloud / AWS / GCP (IAM, сети, compute/storage);
- Парсинг/валидация XML с lxml, ElementTree или аналогами;
- Будет плюсом Apache Spark (глубокая оптимизация: shuffle, partitioning, broadcast joins, динамическое выделение ресурсов), Trino / Presto, табличные форматы (Apache Iceberg, Delta Lake, Hudi), опыт в закрытых контурах / on-premise / air-gapped средах, понимание Data Mesh / Data Fabric, написание unit/integration тестов для пайплайнов (pytest, Great Expectations, dbt tests).
условия
- Трудоустройство: ТК РФ или ИП.
навыки