Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории
data engineer
сопроводительное письмо
описание
Команда строит современную Lakehouse/Data Platform: от ingestion/CDC и пайплайнов обработки до витрин, качества данных и наблюдаемости.
задачи
- Разрабатывать ingestion/CDC пайплайны (Debezium/Flink CDC) и доводить их до production-качества: ретраи, дедупликация, DLQ, мониторинг лагов.
- Строить batch-пайплайны на Spark и выкладывать данные в Iceberg (Bronze/Silver/Gold), поддерживать schema evolution, бороться с мелкими файлами.
- Разрабатывать и поддерживать трансформации в dbt: staging/intermediate/marts, инкрементальные модели, тесты, документация и lineage.
- Оптимизировать запросы/витрины под Trino (партиционирование, статистики, cost-based оптимизации), при необходимости выносить агрегаты.
- Прорабатывать модель данных и контракты с продуктами (Clickstream/Search/RecSys) и прикладными командами.
- Встраивать качество, каталогизацию и доступы: DataHub, правила OPA, ожидания Great Expectations.
- Участвовать в эксплуатации: алерты, метрики, SLO/SLA, разбор инцидентов, runbooks.
требования
- Сильный Python.
- Опыт со Spark (PySpark).
- Понимание lakehouse подхода и работы табличных форматов.
- Опыт с Kafka, понимание CDC.
- Практика Airflow и/или dbt в реальных проектах.
- Умение думать про надежность: идемпотентность, exactly-once/at-least-once, обработка ошибок, backfill.
- Опыт с Trino/Presto, настройкой и оптимизацией аналитических запросов.
- Опыт со Flink/Spark (stream processing, event time, state, checkpoints).
- Понимание DataHub/lineage и Data Quality фреймворков.
- Опыт Kubernetes/Helm и взаимодействия с DevOps.
- Будет плюсом Scala/Java.
условия
- Условий в вакансии нет
навыки