Добавь резюме в профиле, а нейросеть определит твою категорию. Затем ты сможешь генерировать сопроводительные письма для вакансий этой категории
site reliability engineer
сопроводительное письмо
описание
Blink Health строит продукты, чтобы сделать рецептурные лекарства доступными и недорогими для всех. Основные продукты — BlinkRx и Quick Save — убирают барьеры в цепочке поставок рецептов, улучшая доступ к важным медикаментам и здоровье пациентов. BlinkRx — это облачная платформа от фармкомпаний напрямую пациентам с цифровым консьерж-сервисом, прозрачными ценами, бесплатной доставкой домой и поддержкой.
задачи
- Внедрять и развивать лучшие практики SRE по всей компании, включая принципы надёжности, бюджеты ошибок, реагирование на инциденты, постмортемы и стандарты готовности.
- Определять и продвигать стратегию наблюдаемости для здоровья системы, производительности и надёжности, включая SLI/SLO, качество алертов, дашборды и индикаторы сервисов.
- Проектировать и внедрять программные решения в инфраструктуре, автоматизируя ручные процессы и убирая операционную сложность.
- Выступать техническим лидером, помогать расставлять приоритеты и влиять на решения по облачной инфраструктуре, инструментам надёжности и архитектуре платформы.
- Брать на себя крупные неоднозначные инициативы, вести их от идеи до запуска, согласовывая с инженерами, безопасностью и продуктом.
- Комбинировать знания разработки ПО, инфраструктуры и безопасности для повышения устойчивости, масштабируемости, производительности и комплаенса платформы.
- Выявлять системные риски и пробелы в надёжности, предлагать и вести апгрейды платформы и архитектурные улучшения.
- Сотрудничать с командами инженеров для улучшения рабочих процессов разработчиков, инструментов и операционной зрелости.
- Предоставлять техническое наставничество, рекомендации по архитектуре и качественные код-ревью для инженеров инфраструктуры и продуктовых команд.
- Вести документирование и обмен знаниями, чтобы системы и процессы не зависели от отдельных людей.
- Участвовать в реагировании на инциденты, эскалации и обучении после них.
требования
- Высшее образование в компьютерных науках или эквивалентный практический опыт.
- 7+ лет опыта в SRE, инженерной инфраструктуре или платформенной инженерии с доказанным влиянием в масштабе.
- Экспертный уровень в методичном поиске неисправностей по всему стеку от приложений до ядра и сети.
- Отличное владение командной строкой и глубокие знания Linux и основ ОС.
- Продвинутое понимание сетевых концепций, включая балансировку нагрузки, прокси, DNS, TCP/IP, NAT и связь сервисов.
- Опыт работы с несколькими языками (Python, Go, Bash) и отладки стеков приложений вроде React.
- Сильный опыт автоматизации повторяющейся и сложной операционной работы для снижения рутины и повышения надёжности.
- Умение проектировать и строить внутренние инструменты (Python или Go) для стандартизации и масштабирования практик инженерии.
- Удобство работы в agile-среде с дисциплинированным тестированием и практиками качества.
- Глубокий опыт с облачными платформами (AWS предпочтительно, GCP/Azure подойдут), особенно управляемыми сервисами и архитектурами для продакшена.
- Сильные знания Kubernetes и оркестрации контейнеров (EKS, Helm), включая управление жизненным циклом и лучшие практики.
- Доказанный опыт проектирования и внедрения систем наблюдаемости, включая метрики, логи, трассировку, дашборды и алерты.
- Глубокое понимание технологий контейнеров, сканирования безопасности, управления секретами, динамической конфигурации и архитектур микросервисов.
- Знакомство с service mesh и продвинутым управлением трафиком.
- Опыт проектирования и поддержки кодовых баз IaC для всей компании с использованием Terraform, Pulumi, CloudFormation или Ansible.
- Умение думать комплексно об инфраструктуре: стоимость, надёжность, безопасность и долгосрочная поддержка.
- Будет плюсом знание service mesh и продвинутых концепций управления трафиком.
условия
- Условий в вакансии нет