Senior MLOps / Recsys
По договоренности
Не указан•Занятость: Не указана•Требуемый опыт: От 3 лет
Москва
Описание вакансии
Мы - команда MLOps в отделе Рекомендаций. Именно с помощью Рекомендаций в WB совершается более трети всех покупок. Наша команда по-своему уникальна, так как очень тесно связана с бизнес- продуктами, которые выводятся на реальных пользователей с помощью наших технологий (самый яркий пример - продукт Поиск по фото).
Над алгоритмами и продуктами рекомендаций трудится большое количество DS/ML специалистов, которым необходимо предоставить все условия, чтобы их процесс разработки от идеи до выкатки в prod был удобным, понятным, быстрым и безопасным.
Для организации этого процесса мы разрабатываем и внедряем различные инструменты, а также выстраиваем ML инфраструктуру - как для ресерча, так и для продовых запусков.
Дополнительно
Развивать существующие MLOps инструменты, утилиты и библиотеки, повышать их надежность, внедрять новые "фичи"; Дорабатывать существующие Open-source инструменты под нужды команды, патчить и контрибьютить; Внедрять MLOps инструменты для автоматизации процессов жизненного цикла ML-моделей; Оптимизировать инфраструктуру для Highload ML сервисов, заниматься оптимизацией инференса ML моделей; Обеспечивать быстрое масштабирование и высокую доступность ML инфраструктуры; Помогать DS'ам в создании пайплайнов и сервисов в production среде (помощь в продуктивизации), оптимизировать их производительность; Развивать системы мониторинга и логирования ML решений; Помогать проектировать и планировать ресурсы, инфраструктуру и архитектуру решений; Участвовать в разработке стратегии развития MLOps направления; Менторить младших специалистов; Повышать качество внешней и внутренней документации по нашим продуктам. Экспертное владение Python; Опыт деплоя в production с помощью Kubernetes, глубокое понимание его работы, опыт работы с Helm-чартами; Опыт построения сложных CI/CD пайплайнов (Gitlab CI/CD) и продвинутый опыт использования VCS (Git); Опыт инференса ML/LLM моделей в production под высокой нагрузкой (Triton Nvidia Inference Server, vLLM); Знания и опыт в оптимизации ML моделей для инференса; Практический опыт внедрения с дальнейшей эксплуатацией MLOps инструментов для пользователей - Airflow, Dagster, Argo Workflows, Prefect, Flyte, MLFlow, JupyterHub, DVC, LakeFS, Seldon Core, KubeFlow и др; Понимание современных алгоритмов машинного обучения и жизненного цикла ML модели; Опыт написания пайплайнов / оптимизации запросов на Spark под экосистемой Hadoop; Понимание современных архитектур распределенных систем / опыт реализации и использования для обучения/инференса; Знание библиотек для веб-разработки: asyncio, FastAPI, Celery (SAQ); Знакомство с компонентами мониторинга и логирования (Thanos, Grafana, OpenSearch).