Kyivstar.Tech
вчера

data engineer

выше рынка на 21,0%
вакансия 235 800 ₽
в среднем 194 833 ₽
мэтч
Добавь резюме в профиле, чтобы видеть % мэтча с вакансией

сопроводительное письмо

Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории

описание

Kyivstar.Tech — украинская гибридная IT-компания, резидент Diia.City и дочерняя структура Kyivstar, одного из крупнейших телеком-операторов Украины. Компания создаёт технологические решения и продукты, которые раскрывают потенциал бизнеса и отвечают нуждам пользователей. Более 600 специалистов работают над мобильными и веб-решениями, дизайном, разработкой, поддержкой и техобслуживанием высокопроизводительных систем и сервисов.

задачи

  • Проектировать, разрабатывать и поддерживать ETL/ELT-пайплайны для сбора, преобразования и хранения больших объёмов текстовых данных.
  • Внедрять веб-скрейпинг и сервисы сбора данных для автоматизации загрузки текста и лингвистических данных из сети и внешних источников.
  • Выполнять обработку данных для NLP/LLM: очистку и нормализацию текста, фильтрацию токсичного контента, дедупликацию, удаление персональных данных.
  • Формировать датасеты SFT/RLHF из существующих данных, включая аугментацию и разметку с помощью LLM.
  • Настраивать и управлять облачной инфраструктурой данных: хранилища (data lakes, warehouses) и фреймворки обработки (AWS/GCP/Azure).
  • Автоматизировать рабочие процессы обработки данных с помощью инструментов оркестрации вроде Apache Airflow.
  • Поддерживать и оптимизировать аналитические базы данных и слои доступа.
  • Сотрудничать с дата-сайентистами и NLP-инженерами для создания фич и датасетов для моделей машинного обучения.
  • Внедрять проверки качества данных, мониторинг и алертинг.
  • Управлять безопасностью данных, доступом и комплаенсом.

требования

  • 3+ года опыта дата-инженером или в похожей роли с созданием пайплайнов.
  • Опыт проектирования ETL/ELT-процессов, работы с данными из разных источников, инструментами трансформации и оркестрацией вроде Apache Airflow.
  • Уверенные навыки программирования на Python для манипуляций с данными и разработки пайплайнов.
  • Опыт с NLP-пакетами (spaCy, NLTK, langdetect, fasttext) и SQL для запросов и трансформаций в реляционных базах.
  • Знание Bash или других скриптов для автоматизации, чистый код и Git.
  • Работа с реляционными базами (PostgreSQL, MySQL): схемы, оптимизация запросов.
  • Практика с облачными платформами (AWS, GCP, Azure) для хранения и обработки данных.
  • Знание практик обеспечения качества данных, мониторинга пайплайнов и CI/CD.
  • Умение работать с дата-сайентистами, базовое понимание NLP и нужд для обучения языковых моделей.
  • Будет плюсом опыт с лингвистическими данными или NLP-проектами, украинскими текстами, Spark, Kafka, веб-скрейпингом (Scrapy, Selenium), CI/CD (GitHub Actions), Docker, Kubernetes, BI-инструментами (Tableau, Looker), векторными базами (Pinecone, FAISS).

условия

  • Работа из офиса или удалённо на выбор, организуют рабочее место.
  • Удалённый онбординг.
  • Бонусы за производительность.
  • Обучение через библиотеку компании, внутренние ресурсы и партнёрские программы.
  • Медицинская и страховая страховка жизни.
  • Программа wellbeing и корпоративный психолог.
  • Компенсация расходов на мобильную связь Kyivstar.
Откликнуться Добавить в отклики