Baseten24.03.2026
Post-Training Research Engineer
Полная занятостьУдалёнка
Обязанности
- 01Разработка внутреннего инструментария для поддержки пост-обучения моделей различной архитектуры с применением разнообразных техник
- 02Обеспечение эффективности и высокого качества моделей для специфических потребностей клиентов Baseten
- 03Исследование и внедрение современных методов пост-обучения, включая reinforcement learning, supervised fine-tuning и инновационные техники
- 04Работа с системными концепциями: Kubernetes, cgroups, системы хранения, сетевые топологии
- 05Оптимизация распределенных вычислений на GPU с использованием PyTorch, включая профилирование и улучшение производительности
- 06Взаимодействие с исследовательской командой для выполнения спецификаций и решения сложных технических задач
- 07Участие в разработке и поддержке HPC и распределенных вычислительных платформ (Slurm, Ray, Kubernetes, Dask)
- 08Анализ и оптимизация сетевых технологий кластера (Infiniband, RoCE, GPUDirect)
- 09Работа с операционными системами: процессы, файлы, драйверы ядра, контейнеризация, сетевые протоколы
Требования
- 01Глубокое понимание современных техник и инструментов машинного обучения для обучения трансформеров
- 02Продвинутый опыт работы с библиотеками тензорных вычислений (PyTorch, TensorFlow, Jax или аналогичными)
- 03Детальное знание стратегий параллелизма при обучении трансформеров (data parallelism, sharded data parallelism, tensor parallelism, pipeline parallelism, context parallelism)
- 04Опыт профилирования и оптимизации распределенных GPU-программ в PyTorch или аналогичных библиотеках
- 05Умение выполнять анализ производительности (roofline analysis) для обучения трансформеров
- 06Готовность решать сложные проблемы, работать с исследователями, формулировать технические спецификации
- 07Опыт работы с HPC и распределенными вычислительными платформами (Slurm, Ray, Kubernetes, Dask)
- 08Знание сетевых технологий кластера (Infiniband, RoCE, GPUDirect)
- 09Крепкие фундаментальные знания в области операционных систем (процессы, файлы, драйверы ядра, контейнеризация, сетевые протоколы)
- 10Креативность и готовность критически оценивать подходы, предположения и инструменты компании
Условия
- 01Конкурентоспособная зарплата с существенной долей акций (equity)
- 02Полное покрытие медицинского, стоматологического и стоматологического страхования для сотрудника и его иждивенцев
- 03Гибкая политика оплачиваемого отпуска, включая зимний перерыв (офисы закрыты с 24 декабря по 1 января)
- 04Оплачиваемый отпуск по уходу за ребенком
- 05Стипендия на фертильность и планирование семьи через Carrot
- 06Корпоративный 401(k)
- 07Возможность общения и нетворкинга с различными стартапами в области ML