Дано

У нас есть три вида сущностей для эксплуатации:

  1. Собственная инфраструктура: VPN, Prometheus, Alert manager (пара вирутальных машин в GCE)
  2. Внутренний baremetal ML-кластер из подручных средств в офисе. Там nvidia-docker, NAS, рабочие контейнеры сотрудников (1 NAS + 6 baremetal серверов)
  3. Cервисы в облаке Яндекса и k8s Google Cloud. Некоторые нужны нам, некоторые мы делаем под заказчиков (k8s кластер на 3 ноды)

Везде Ansible, Prometheus и Docker.

Есть настроенные Pingdom и Prometheus, которые алертят через PagerDuty. В основном по делу, то есть на каждый алерт нужно реагировать.

Нужно

Счастье в виде человека / группы людей, которые смогут принять в эксплуатацию то, что у нас есть, подписаться под SLA и дежурства.

Задачи

  1. Сопровождать внутреннюю инфраструктуру: выдавать и отзывать доступы сотрудников к сервисам (почта/асана/гитхаб/VPN/облака и тп) при найме/увольнении.
  2. Сопровождать разработку: помогать разработчикам в разворачивании и настройке сервисов, настривать сервисы и доступы в Я.Облаке и Google Cloud.
  3. Обеспечивать работоспособность инфраструктуры:
    1. Ack-ть и реагировать на инциденты в PagerDuty
    2. Делать ревью инцидентов
    3. Планировать и внедрять системные изменения в инфраструктуру на основании ревью.

Компетенции

Опыт работы с:

  1. Системами управления конфигурации (любой из): Ansible, Chef, Puppet, Salt
  2. Docker
  3. Kubernetes

SLA

Нам нужно “чтобы работало и не падало”:

  1. Время реакции по большинству систем хотелось бы 30-60 минут в рабочие дни с 9 до 21.
  2. По некоторым (2-3 сервиса) необходим 24/7 и 10-15 минут на реакцию, но это stateless сервисы с настроенным автоперезапуском.

Вопросы

  1. Какая структура ценообразования? (Мы рассмотрим как варианты full-time занятости, так и контрактной работы)
  2. Как обеспечивается выполнение SLA?

Анкета для заполнения