ML-разработчик в команду базового алайнмента YandexGPT
По договоренности
Гибрид•Занятость: Полная•Требуемый опыт: От 3 до 5 лет
Машинное обучение
Описание вакансии
Обучение модели на предпочтения пользователей (RLHF)После стадии SFT качество ответов одной модели даже на одном запросе может очень сильно различаться. Мы собираем разметку об относительном качестве ответов модели и учим её генерировать ответ лучшего качества, на которое она способна. На данном этапе применяются такие алгоритмы, как DPO и PPO, также мы экспериментируем с другими способами RLHF. Обучение модели оценки качества ответов (reward modeling)Разметка качества ответов людьми — очень дорогой и небыстрый процесс, а некоторые алгоритмы RLHF (PPO) требуют разметки в реальном времени. Для этого мы развиваем свою линейку реворд-моделей, которые могут быстро и достаточно близко к человеку оценить качество ответа модели. Разработка новых навыков и борьба со слабыми местами моделиМы постоянно ищем примеры задач, с которыми наши модели справляются ещё недостаточно хорошо. Улучшение качества на таких срезах иногда требует изменений на всех стадиях обучения. Расширенная медицинская страховка начинает работать с первого месяца в Яндексе. В неё входят стоматология, ежегодные чекапы, неотложная помощь за рубежом, лечение критических заболеваний, в том числе онкологии, и страхование от несчастных случаев. Мы оплачиваем 80% стоимости ДМС для детей и супругов, вы — остальные20%. В Яндексе есть всё, чтобы постоянно развиваться и учиться новому: внутренняя образовательная платформа, менторство и программы для начинающих и опытных руководителей. Также мы оплачиваем участие в профильных конференциях — как в качестве спикера, так и в качестве участника. Кроме того, в Яндексе есть внутренние проекты, где наши сотрудники делятся экспертизой, обсуждают сложные темы и разбирают кейсы своих проектов. Во всех крупных офисах Яндекса есть спортзалы со всем необходимым: тренажёрами, спортивным инвентарём, душевыми, шкафчиками для одежды и вещей. Можете заниматься самостоятельно, а можете с корпоративным тренером. В Яндексе есть спортивный клуб и много спортивных команд. У них есть свои лидеры, чаты, программы тренировок. А ещё они регулярно участвуют в забегах, триатлонах, «Гонке героев», футбольных и других соревнованиях. Вы сможете присоединиться к существующим командам или собрать свою. У нас нет фиксированного времени начала и конца рабочего дня — работайте так, как удобно вам и вашей команде. Льготная ставка на покупку жилья и улучшение жилищных условий — в зависимости от стажа, позиции и результатов ревью. Действует для сотрудников, работающих в российских офисах Яндекса. Страхование, детские дни в офисе, подарки на рождение детей и чекапы при планировании беременности.
Дополнительно
Отлично знаете классические ML и NLP Понимаете, как устроены современные LLM, решали с их помощью прикладные задачи или имеете релевантный исследовательский опыт Не боитесь работать с данными и SQL психотерапия в офисе или онлайн-сервисах; лазерная коррекция зрения через год работы; ведение беременности и роды — через два года. бесплатные онлайн-тренировки с FITMOST; скидки в фитнес-клубах, бассейнах, студиях йоги, скалодромах и других местах.