site reliability engineer
сопроводительное письмо
описание
Продуктовая компания разрабатывает платформу для роста выручки мобильных приложений. Платформа помогает приложениям создавать и оптимизировать web-to-app воронки: лендинги, платежи, аналитику и удержание, снижая комиссии App Store и увеличивая прибыль от подписок.
задачи
- Проводить аудит текущего состояния инфраструктуры и составлять стратегию/роадмап.
- Обеспечивать надежность и стабильность продакшн-инфраструктуры.
- Проектировать и развивать observability: SLI/SLO, метрики, логи и алертинг (Prometheus, Grafana, Loki).
- Строить и развивать процессы incident response.
- Масштабировать Kubernetes-кластеры (on-prem).
- Развивать CI/CD и автоматизацию: GitHub Actions, Helm, контейнерные пайплайны.
- Совместно работать с инженерами над безопасными и предсказуемыми релизами.
- Участвовать hands-on в операционной работе (дебаг, алерты, инциденты).
- Вести и развивать техническую документацию и инфраструктурные стандарты.
- Взаимодействовать с внешними DevOps-партнерами.
требования
- Навыки написания кода на Go.
- Будет плюсом опыт с Cloudflare Workers / R2 или edge-инфраструктурой, оптимизация затрат и capacity planning, опыт в стартапах или быстрорастущих продуктах.
условия
- Полная удалёнка из любой точки мира (кроме РФ и РБ).
- Компенсация спорта, занятий по английскому, рабочий ноутбук, PTO.
навыки