Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории
data engineer
сопроводительное письмо
описание
Команда строит промышленную data-платформу для работы с большими языковыми моделями (LLM) и Retrieval-Augmented Generation (RAG). Вам нужно будет разрабатывать сервисы пакетной и потоковой обработки данных для вычисления векторных представлений (embeddings), загружать и сопровождать данные в векторных хранилищах для RAG-сценариев, разрабатывать и поддерживать ETL-пайплайны под управлением Airflow / Argo, оптимизировать SQL-запросы и Spark-приложения, взаимодействовать с командами Data Science, ML/LLM и инфраструктуры, участвовать в развитии data-платформы для LLM-решений.
требования
- Отличное знание Python: структуры данных, итераторы, декораторы, асинхронное и параллельное программирование, OOP и FP
- Уверенное владение SQL: сложные запросы, CTE, оконные функции
- Опыт работы с vector DB: OpenSearch, Qdrant
- Опыт построения batch и streaming-сервисов для расчёта embeddings и загрузки их в векторные хранилища
- Понимание принципов RAG и обогащения LLM контекстными данными
- Опыт разработки промышленных ETL-сервисов на Python
- Опыт оркестрации пайплайнов: Apache Airflow, Argo Workflows
- Хорошее знание Apache Spark / PySpark (производительность, отладка, Spark History Server)
- Опыт асинхронного взаимодействия с веб-сервисами по REST API (aiohttp, httpx)
- Опыт работы с PostgreSQL, Oracle
- Опыт работы с Big Data-хранилищами: Hadoop/HDFS, S3, Hive, Iceberg
- Опыт работы в JupyterLab / JupyterHub
- Будет плюсом опыт потоковой обработки данных, работа в AI / ML / LLM-проектах, понимание требований к данным для обучения и эксплуатации ML-моделей, построение отказоустойчивых data-сервисов в enterprise-среде
условия
- Полный рабочий день