Лид оптимизации инференса для Алисы
По договоренности
Гибрид•Занятость: Полная•Требуемый опыт: От 3 до 5 лет
Москва
Описание вакансии
На разных поверхностях различается профиль нагрузки и может быть задействован разный стек моделей. Кроме того, разные поверхности по-разному ставят требования к скорости ответа: например, на устройствах нужна максимальная скорость ответа при меньшей длине ответа, в мобильных приложениях наоборот — важен более развёрнутый ответ при разумной скорости. Ускорение и оптимизация инференса LLMВ Алисе используются языковые модели разных размеров и архитектур. Необходимо применять их эффективно и искать наиболее подходящие конфигурации под каждую задачу. Вам предстоит заниматься увеличением RPS на карту, при этом сохраняя стабильность сервиса под нагрузкой. Это могут быть как архитектурные решения: кэши, каскады, эвристики, так и алгоритмические, и даже железные. Исследование перспективных подходов и фич для инференсаНеобходимо следить за bleeding-edge-технологиями и своевременно внедрять их. Вы будете исследовать фичи, читать статьи, изучать и испытывать новые подходы, замерять их на разных конфигурациях железа. Важно понимать, какие решения могут дать существенный прирост и каковы границы их применимости. Поддержка рантайма инференсаВам предстоит писать высоконагруженные сервисы, которые будут обрабатывать десятки тысяч запросов в секунду. Важно, чтобы, как и любой компонент рантайма, LLM-сервисы были отказоустойчивыми, поддерживаемыми и легко масштабировались. Расширенная медицинская страховка начинает работать с первого месяца в Яндексе. В неё входят стоматология, ежегодные чекапы, неотложная помощь за рубежом, лечение критических заболеваний, в том числе онкологии, и страхование от несчастных случаев. Мы оплачиваем 80% стоимости ДМС для детей и супругов, вы — остальные20%. В Яндексе есть всё, чтобы постоянно развиваться и учиться новому: внутренняя образовательная платформа, менторство и программы для начинающих и опытных руководителей. Также мы оплачиваем участие в профильных конференциях — как в качестве спикера, так и в качестве участника. Кроме того, в Яндексе есть внутренние проекты, где наши сотрудники делятся экспертизой, обсуждают сложные темы и разбирают кейсы своих проектов. Во всех крупных офисах Яндекса есть спортзалы со всем необходимым: тренажёрами, спортивным инвентарём, душевыми, шкафчиками для одежды и вещей. Можете заниматься самостоятельно, а можете с корпоративным тренером. В Яндексе есть спортивный клуб и много спортивных команд. У них есть свои лидеры, чаты, программы тренировок. А ещё они регулярно участвуют в забегах, триатлонах, «Гонке героев», футбольных и других соревнованиях. Вы сможете присоединиться к существующим командам или собрать свою. У нас нет фиксированного времени начала и конца рабочего дня — работайте так, как удобно вам и вашей команде. Льготная ставка на покупку жилья и улучшение жилищных условий — в зависимости от стажа, позиции и результатов ревью. Действует для сотрудников, работающих в российских офисах Яндекса.
Дополнительно
— Имеете опыт руководства командой разработчиков Уверенно владеете C++ Работали с высоконагруженными сервисами Знаете, как устроен инференс LLM Занимались оптимизациями Готовы заниматься RnD и внедрять перспективные решения Занимались ML, в частности DL Работали с одним или несколькими из фреймворков для инференса: tensorrt llm, sglang, vllm психотерапия в офисе или онлайн-сервисах; лазерная коррекция зрения через год работы