Cloud.ru
Инженер эксплуатации суперкомпьютеров
От 3 до 6 летУдаленноУдаленно
Навыки
LinuxKubernetesZabbixPrometheusGrafanaELKAnsibleGitGitlabJenkins
Обязанности
- 01Работать по устранению проблем инфраструктуры, сервиса и клиентов: реагировать на инциденты, проблемы клиентов (переданные с L2) и оповещения мониторинга
- 02Проводить диагностику, выявлять причины сбоев и восстанавливать работу сервиса
- 03Участвовать в OnCall-дежурствах
- 04Участвовать в разборе корневых причин инцидентов (post-mortem)
- 05Формировать документацию и инструкции для инженеров поддержки 3-го и 2-го уровней
- 06Совместно с SRE работать над повышением надёжности системы (мониторинг и пр.)
Требования
- 01Опыт сопровождения информационных систем и инфраструктуры (чем сложнее – тем лучше)
- 02Умение не теряться в критической ситуации и планомерно работать над поиском причины неисправности и её устранением
- 03Уверенные знания и опыт администрирования Linux
- 04Уверенные знания в области сетевых технологий
- 05Уверенные знания о контейнеризации и k8s, опыт работы с kubernetes
- 06Опыт работы с инструментами мониторинга и логирования (Zabbix / Prometheus, / Grafana / ELK )
- 07Опыт работы с Ansible
- 08Знания о системах контроля версий (Git) и CI/CD (Gitlab, Jenkins) и опыт работы с ними