Baseten24.03.2026

Post-Training Research Engineer

Полная занятостьУдалёнка

Обязанности

  • 01Разработка внутреннего инструментария для поддержки пост-обучения моделей различной архитектуры с применением разнообразных техник
  • 02Обеспечение эффективности и высокого качества моделей для специфических потребностей клиентов Baseten
  • 03Исследование и внедрение современных методов пост-обучения, включая reinforcement learning, supervised fine-tuning и инновационные техники
  • 04Работа с системными концепциями: Kubernetes, cgroups, системы хранения, сетевые топологии
  • 05Оптимизация распределенных вычислений на GPU с использованием PyTorch, включая профилирование и улучшение производительности
  • 06Взаимодействие с исследовательской командой для выполнения спецификаций и решения сложных технических задач
  • 07Участие в разработке и поддержке HPC и распределенных вычислительных платформ (Slurm, Ray, Kubernetes, Dask)
  • 08Анализ и оптимизация сетевых технологий кластера (Infiniband, RoCE, GPUDirect)
  • 09Работа с операционными системами: процессы, файлы, драйверы ядра, контейнеризация, сетевые протоколы

Требования

  • 01Глубокое понимание современных техник и инструментов машинного обучения для обучения трансформеров
  • 02Продвинутый опыт работы с библиотеками тензорных вычислений (PyTorch, TensorFlow, Jax или аналогичными)
  • 03Детальное знание стратегий параллелизма при обучении трансформеров (data parallelism, sharded data parallelism, tensor parallelism, pipeline parallelism, context parallelism)
  • 04Опыт профилирования и оптимизации распределенных GPU-программ в PyTorch или аналогичных библиотеках
  • 05Умение выполнять анализ производительности (roofline analysis) для обучения трансформеров
  • 06Готовность решать сложные проблемы, работать с исследователями, формулировать технические спецификации
  • 07Опыт работы с HPC и распределенными вычислительными платформами (Slurm, Ray, Kubernetes, Dask)
  • 08Знание сетевых технологий кластера (Infiniband, RoCE, GPUDirect)
  • 09Крепкие фундаментальные знания в области операционных систем (процессы, файлы, драйверы ядра, контейнеризация, сетевые протоколы)
  • 10Креативность и готовность критически оценивать подходы, предположения и инструменты компании

Условия

  • 01Конкурентоспособная зарплата с существенной долей акций (equity)
  • 02Полное покрытие медицинского, стоматологического и стоматологического страхования для сотрудника и его иждивенцев
  • 03Гибкая политика оплачиваемого отпуска, включая зимний перерыв (офисы закрыты с 24 декабря по 1 января)
  • 04Оплачиваемый отпуск по уходу за ребенком
  • 05Стипендия на фертильность и планирование семьи через Carrot
  • 06Корпоративный 401(k)
  • 07Возможность общения и нетворкинга с различными стартапами в области ML