Cloud.ru

Инженер эксплуатации суперкомпьютеров

От 3 до 6 летУдаленноУдаленно

Навыки

LinuxKubernetesZabbixPrometheusGrafanaELKAnsibleGitGitlabJenkins

Обязанности

  • 01Работать по устранению проблем инфраструктуры, сервиса и клиентов: реагировать на инциденты, проблемы клиентов (переданные с L2) и оповещения мониторинга
  • 02Проводить диагностику, выявлять причины сбоев и восстанавливать работу сервиса
  • 03Участвовать в OnCall-дежурствах
  • 04Участвовать в разборе корневых причин инцидентов (post-mortem)
  • 05Формировать документацию и инструкции для инженеров поддержки 3-го и 2-го уровней
  • 06Совместно с SRE работать над повышением надёжности системы (мониторинг и пр.)

Требования

  • 01Опыт сопровождения информационных систем и инфраструктуры (чем сложнее – тем лучше)
  • 02Умение не теряться в критической ситуации и планомерно работать над поиском причины неисправности и её устранением
  • 03Уверенные знания и опыт администрирования Linux
  • 04Уверенные знания в области сетевых технологий
  • 05Уверенные знания о контейнеризации и k8s, опыт работы с kubernetes
  • 06Опыт работы с инструментами мониторинга и логирования (Zabbix / Prometheus, / Grafana / ELK )
  • 07Опыт работы с Ansible
  • 08Знания о системах контроля версий (Git) и CI/CD (Gitlab, Jenkins) и опыт работы с ними