Разработчик бэкенда в ApplicationTeam (Observability)

Any

По договоренности

ОфисЗанятость: ПолнаяТребуемый опыт: От 3 до 5 лет

Удалённый

Откликнуться
company logo
Яндекс
Перейти на сайт

Размер компании

-

Описание компании не указано

Описание вакансии

Практически все команды Яндекса, а также тысячи внешних клиентов Yandex Cloud ежедневно пользуются нашими инструментами для мониторинга работы своих систем и предотвращения инцидентов. ApplicationTeam — входная точка в платформу Observability. Мы отвечаем за взаимодействие пользователей с системой: обрабатываем все входящие запросы к системе мониторинга, проектируем масштабируемые API, поддерживаем SDK и строим интеграции с сервисами разного масштаба. Мы тесно взаимодействуем с другими командами и предоставляем доступ к метрикам, логам, трейсам и алертам. Мгновенный drilldown при инцидентах и получение инсайтовВ современных распределённых системах локализовать инцидент бывает сложнее, чем его починить. Ваша задача — создавать инструменты, которые в ситуации «пожара» позволяют зайти в платформу и сразу понять, что случилось, где именно возник сбой, как он повлиял на систему и что делать дальше, — вместо того, чтобы потеряться в огромном объёме сырых данных. Пользователь видит не разрозненные данные, а связанную историю происходящего: система подсказывает возможные руткозы и предлагает способы быстро углубиться в детали для локализации сбоя. Интерфейсы и протоколы взаимодействия с платформойВ нашей экосистеме классических решений часто оказывается недостаточно — поэтому многое приходится изобретать с нуля или адаптировать под свои цели. Чтобы обрабатывать миллионы метрик в секунду, мы создали собственный бинарный формат Spack: в отличие от Protobuf, он поддерживает динамические наборы метрик без схемы, эффективно сжимает и быстро декодирует данные (LZ4, ZSTD), что критично для стабильной работы под экстремальными нагрузками. Вам предстоит проектировать архитектуру API, разрабатывать SDK и gRPC-интерфейсы, развивать внутренние протоколы и форматы обмена данными, чтобы обеспечивать единые стандарты и высокую отказоустойчивость для всех сервисов Яндекса. Интеграция AI/MLМы хотим перейти от реактивного мониторинга к проактивному — такой системе, которая умеет выявлять корневые причины инцидентов и предугадывать проблемы, которые ещё не обнаружились явно, но уже могут быть предсказаны. Вам предстоит разработать интеллектуальный слой для нашей платформы: от создания и внедрения моделей определения аномалий (на основе показателей, логов, трасс) до построения механизмов оповещений и диагностики сложных сбоев. Вы будете решать сложные задачи: как учиться на инцидентах, которые не повторяются? Как сокращать время до обнаружения и локализации проблем в инфраструктуре? Смотрите другие вакансии направления Yandex Cloud Observability Platformпо ссылке. Расширенная медицинская страховка начинает работать с первого месяца в Яндексе. В неё входят стоматология, ежегодные чекапы, неотложная помощь за рубежом, лечение критических заболеваний, в том числе онкологии, и страхование от несчастных случаев. Мы оплачиваем 80% стоимости ДМС для детей и супругов, вы — остальные20%. В Яндексе есть всё, чтобы постоянно развиваться и учиться новому: внутренняя образовательная платформа, менторство и программы для начинающих и опытных руководителей. Также мы оплачиваем участие в профильных конференциях — как в качестве спикера, так и в качестве участника. Кроме того, в Яндексе есть внутренние проекты, где наши сотрудники делятся экспертизой, обсуждают сложные темы и разбирают кейсы своих проектов. Во всех крупных офисах Яндекса есть спортзалы со всем необходимым: тренажёрами, спортивным инвентарём, душевыми, шкафчиками для одежды и вещей. Можете заниматься самостоятельно, а можете с корпоративным тренером. В Яндексе есть спортивный клуб и много спортивных команд. У них есть свои лидеры, чаты, программы тренировок. А ещё они регулярно участвуют в забегах, триатлонах, «Гонке героев», футбольных и других соревнованиях.

Дополнительно

Понимаете, как устроены распределённые и высоконагруженные системы, знакомы с особенностями их архитектуры и требованиями к отказоустойчивости Имеете опыт промышленной разработки на Java (опыт работы с большими кодовыми базами) Знакомы с базовыми алгоритмами и структурами данных, знаете, как их применять в работе Владеете основами работы в Unix-системах и используете их инструменты для диагностики и анализа сервисов Разрабатывали API, SDK или библиотеки для разработчиков Умеете проектировать удобные, расширяемые и безопасные REST/gRPC-интерфейсы Работали с системами мониторинга: Prometheus, Grafana, ELK, Jaeger, DataDog или аналогами Знакомы с Terraform или другими инструментами IaC психотерапия в офисе или онлайн-сервисах; лазерная коррекция зрения через год работы