vamstar
2 фев

Инженер данных

мэтч
Добавь резюме в профиле, чтобы видеть % мэтча с вакансией

сопроводительное письмо

Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Обязательно перекрытие ±2–3 часа с GMT

Команда работает с топ-100 компаниями в области наук о жизни, медтеха и фармы. Вам нужно будет проектировать, строить и поддерживать пакетные и потоковые пайплайны данных, включая загрузку, очистку, нормализацию, обогащение и дедупликацию, разрабатывать и владеть ML/LLM-пайплайнами от начала до конца с парсингом документов, чанкингом, генерацией эмбеддингов, индексацией векторов, вызовами инструментов, многошаговыми воркфлоу, повторами, фоллбэками и обработкой состояний, писать надёжный production-grade Python-код для обработки больших объёмов данных и документов, следить за здоровьем пайплайнов и работать автономно к дедлайнам проектов.

требования

  • 7+ лет в бэкенде с данными или data engineering.
  • Отлично знаете Python.
  • Опыт с большими датасетами и высокоскоростными потоками данных (Kafka, Flink, Spark).
  • Умеете работать с оркестраторами пайплайнов (Airflow, MLflow или аналоги).
  • Хорошо знаете SQL (Postgres, BigQuery или Snowflake) и NoSQL (DynamoDB, OpenSearch, Elastic).
  • Реальный опыт с LLM-воркфлоу: RAG-архитектуры, эмбеддинги/векторные БД, prompt engineering, function/tool calling, observability.
  • Глубоко понимаете ETL/ELT-паттерны и обработку данных в масштабе.
  • Будет плюсом опыт с AWS data stack в масштабе, работа в здравоохранении, науках о жизни или регулируемых отраслях, запуск production-пайплайнов с данными, ML и LLM, отладка пайплайнов и понимание observability, работа в быстрых стартапах.

условия

  • Полная занятость.
  • Гибкий график.
Откликнуться Добавить в отклики