Cognition09.04.2026
Research Engineer, Infrastructure
Полная занятостьОфис
Обязанности
- 01Создавать и поддерживать системы для запуска крупномасштабных обучающих задач на GPU-кластерах
- 02Обеспечивать надежность и отказоустойчивость распределенных систем обучения
- 03Оптимизировать производительность обучения по всем этапам: загрузка данных, коммуникационные накладные расходы, использование памяти и эффективность вычислений
- 04Разрабатывать и поддерживать системы оркестрации экспериментов для запуска, отслеживания и анализа исследований
- 05Создавать высокопроизводительные и надежные конвейеры обработки данных для обучения и оценки моделей
- 06Диагностировать и устранять сбои в обучении на GPU, сетях, численных вычислениях и данных
- 07Внедрять и оптимизировать стратегии параллелизма: распределение данных, тензоров, конвейеров и последовательностей
- 08Прогнозировать потребности исследовательской команды и разрабатывать инфраструктуру до того, как она станет ограничением
Требования
- 01Глубокий опыт создания и эксплуатации распределенных систем обучения для крупных моделей
- 02Знание системного инжиниринга: распределенные системы, сети, хранение данных и способность анализировать производительность на уровне hardware-software
- 03Владение Python и C++; опыт работы с PyTorch или аналогичными фреймворками на уровне систем, а не только API
- 04Практический опыт профилирования GPU, оптимизации памяти и вычислительной эффективности
- 05Опыт внедрения или оптимизации стратегий параллелизма (распределение данных, тензоров, конвейеров, последовательностей) для обучения крупных моделей
- 06Опыт создания инструментов и абстракций, ускоряющих исследовательские процессы
- 07Навыки отладки сложных распределенных систем с неопределенными и трудно воспроизводимыми сбоями
- 08Понимание машинного обучения на уровне, достаточном для продуктивного взаимодействия с исследователями
- 09Способность работать в быстром темпе с минимальными бюрократическими процессами
Условия
- 01Работа в небольшой, высокоизбирательной команде, где исследования и продукт развиваются параллельно
- 02Ответственность за инфраструктуру, работающую на тысячах GPU
- 03Доступ к необходимым вычислительным ресурсам без ограничений
- 04Минимальные бюрократические процессы, высокая автономность и техническая глубина
- 05Работа в одной из самых конкурентных и быстроразвивающихся областей ИИ
- 06Равенство возможностей, без дискриминации по любым признакам