data engineer

выше рынка на 16,6%

вакансия 350 000 ₽

в среднем 300 100 ₽

Добавь резюме в профиле, чтобы видеть % мэтча с вакансией

сопроводительное письмо

Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Команда строит промышленную data-платформу для работы с большими языковыми моделями (LLM) и Retrieval-Augmented Generation (RAG). Вам нужно будет разрабатывать сервисы пакетной и потоковой обработки данных для вычисления векторных представлений (embeddings), загружать и сопровождать данные в векторных хранилищах для RAG-сценариев, разрабатывать и поддерживать ETL-пайплайны под управлением Airflow / Argo, оптимизировать SQL-запросы и Spark-приложения, взаимодействовать с командами Data Science, ML/LLM и инфраструктуры, участвовать в развитии data-платформы для LLM-решений.

требования

Отличное знание Python: структуры данных, итераторы, декораторы, асинхронное и параллельное программирование, OOP и FP
Уверенное владение SQL: сложные запросы, CTE, оконные функции
Опыт работы с vector DB: OpenSearch, Qdrant
Опыт построения batch и streaming-сервисов для расчёта embeddings и загрузки их в векторные хранилища
Понимание принципов RAG и обогащения LLM контекстными данными
Опыт разработки промышленных ETL-сервисов на Python
Опыт оркестрации пайплайнов: Apache Airflow, Argo Workflows
Хорошее знание Apache Spark / PySpark (производительность, отладка, Spark History Server)
Опыт асинхронного взаимодействия с веб-сервисами по REST API (aiohttp, httpx)
Опыт работы с PostgreSQL, Oracle
Опыт работы с Big Data-хранилищами: Hadoop/HDFS, S3, Hive, Iceberg
Опыт работы в JupyterLab / JupyterHub
Будет плюсом опыт потоковой обработки данных, работа в AI / ML / LLM-проектах, понимание требований к данным для обучения и эксплуатации ML-моделей, построение отказоустойчивых data-сервисов в enterprise-среде

условия

Полный рабочий день

навыки

python sql opensearch qdrant embeddings rag etl apache airflow argo workflows pyspark apache spark rest api aiohttp httpx postgresql oracle hadoop hdfs s3 hive