Разработчик в команду надёжности Такси

Any

По договоренности

Гибрид•Занятость: Полная•Требуемый опыт: От 3 до 5 лет

Москва

Откликнуться

Яндекс

Перейти на сайт

Размер компании

Описание компании не указано

Перейти к текущей вакансии Все вакансии (0)

Описание вакансии

Наша команда разработки отвечает за надёжность и отказоустойчивость сервиса Такси. Подробнее о нашей работе можно узнать из видео«Антология технологий Яндекс Такси. Надёжность сервиса». Больше технических деталей о проектах, которые мы разрабатываем, — в докладе«Инструменты надёжности Такси». АрхитектураВы будете влиять на образ проектов, которыми занимаетесь: проектировать сервисы, выбирать способы реализации и проводить эксперименты. Благодаря этому будете находить наиболее подходящие решения и оказывать влияние на надёжность и устойчивость всего сервиса Такси. ИсследованияМы вместе исследуем систему и ищем новые проекты для повышения надёжности, внедряем решения и практики, которые будут касаться большого количества команд и микросервисов. Расширенная медицинская страховка начинает работать с первого месяца в Яндексе. В неё входят стоматология, ежегодные чекапы, неотложная помощь за рубежом, лечение критических заболеваний, в том числе онкологии, и страхование от несчастных случаев. Мы оплачиваем 80% стоимости ДМС для детей и супругов, вы — остальные20%. В Яндексе есть всё, чтобы постоянно развиваться и учиться новому: внутренняя образовательная платформа, менторство и программы для начинающих и опытных руководителей. Также мы оплачиваем участие в профильных конференциях — как в качестве спикера, так и в качестве участника. Кроме того, в Яндексе есть внутренние проекты, где наши сотрудники делятся экспертизой, обсуждают сложные темы и разбирают кейсы своих проектов. Во всех крупных офисах Яндекса есть спортзалы со всем необходимым: тренажёрами, спортивным инвентарём, душевыми, шкафчиками для одежды и вещей. Можете заниматься самостоятельно, а можете с корпоративным тренером. В Яндексе есть спортивный клуб и много спортивных команд. У них есть свои лидеры, чаты, программы тренировок. А ещё они регулярно участвуют в забегах, триатлонах, «Гонке героев», футбольных и других соревнованиях. Вы сможете присоединиться к существующим командам или собрать свою. У нас нет фиксированного времени начала и конца рабочего дня — работайте так, как удобно вам и вашей команде. Льготная ставка на покупку жилья и улучшение жилищных условий — в зависимости от стажа, позиции и результатов ревью. Действует для сотрудников, работающих в российских офисах Яндекса. Страхование, детские дни в офисе, подарки на рождение детей и чекапы при планировании беременности.

Дополнительно

Уменьшить число инцидентов в продакшене: мы анализируем причины отказов, находим узкие места и решаем эти проблемы, предотвращая инциденты Уменьшить среднее время восстановления и нахождения корневой причины: для этого повышаем observability, развиваем graceful degradation, делаем инструменты для координации инцидентов и автоматизируем восстановление

Над какими проектами вам предстоит работать: Развитие chaos engineering. Мы целенаправленно внедряем ошибки, чтобы получить дополнительные знания о системе и найти скрытые угрозы надёжности. Нужно будет автоматизировать проведение хаоса, добавлять новые типы отказов и повышать наблюдаемость учений. Подробнее про наш хаос мы рассказали намитапе. Виртуальные заказы. Мы определяем ёмкость системы с учётом конфигурации железа, сервисов и баз данных, симулируем разные сценарии и находим узкие места, которые влияют на работу системы при пиковых нагрузках. Для этого виртуальные водители возят виртуальных пассажиров по реальным маршрутам. Расширенный аудит действий в системе. Такси — это сотни микросервисов и баз данных, тысячи изменяющихся конфигов и частые релизы. Для повышения observability и поиска коренных причин инцидентов нам важно видеть полную картину, что изменилось до начала инцидента. Мы расширяем набор источников изменений и улучшаем инструменты для анализа. Автовосстановление при сбоях. Создаём автоматику, которая реагирует на начало инцидента, снимает нагрузку с системы и откатывает потенциально опасные изменения. Дашборд координации инцидентов. Собираем в один инструмент основную информацию и действия, которые могут понадобиться дежурному при инциденте. Повышение observability. Развиваем сбор и отображение метрик и другой телеметрии, чтобы дать командам продуктов более полную картину о работе их сервисов. Anomaly detection. Собираем статистику и отслеживаем деградацию сервисов, чтобы сохранять качество системы и осознанно подходить к потреблению ресурсов. Graceful degradation. Автоматика, которая позволяет срезать нагрузку и отключать некритичные части системы при инцидентах.