Cognition09.04.2026

Research Engineer, Infrastructure

Полная занятостьОфис

Обязанности

01Создавать и поддерживать системы для запуска крупномасштабных обучающих задач на GPU-кластерах
02Обеспечивать надежность и отказоустойчивость распределенных систем обучения
03Оптимизировать производительность обучения по всем этапам: загрузка данных, коммуникационные накладные расходы, использование памяти и эффективность вычислений
04Разрабатывать и поддерживать системы оркестрации экспериментов для запуска, отслеживания и анализа исследований
05Создавать высокопроизводительные и надежные конвейеры обработки данных для обучения и оценки моделей
06Диагностировать и устранять сбои в обучении на GPU, сетях, численных вычислениях и данных
07Внедрять и оптимизировать стратегии параллелизма: распределение данных, тензоров, конвейеров и последовательностей
08Прогнозировать потребности исследовательской команды и разрабатывать инфраструктуру до того, как она станет ограничением

Требования

01Глубокий опыт создания и эксплуатации распределенных систем обучения для крупных моделей
02Знание системного инжиниринга: распределенные системы, сети, хранение данных и способность анализировать производительность на уровне hardware-software
03Владение Python и C++; опыт работы с PyTorch или аналогичными фреймворками на уровне систем, а не только API
04Практический опыт профилирования GPU, оптимизации памяти и вычислительной эффективности
05Опыт внедрения или оптимизации стратегий параллелизма (распределение данных, тензоров, конвейеров, последовательностей) для обучения крупных моделей
06Опыт создания инструментов и абстракций, ускоряющих исследовательские процессы
07Навыки отладки сложных распределенных систем с неопределенными и трудно воспроизводимыми сбоями
08Понимание машинного обучения на уровне, достаточном для продуктивного взаимодействия с исследователями
09Способность работать в быстром темпе с минимальными бюрократическими процессами

Условия

01Работа в небольшой, высокоизбирательной команде, где исследования и продукт развиваются параллельно
02Ответственность за инфраструктуру, работающую на тысячах GPU
03Доступ к необходимым вычислительным ресурсам без ограничений
04Минимальные бюрократические процессы, высокая автономность и техническая глубина
05Работа в одной из самых конкурентных и быстроразвивающихся областей ИИ
06Равенство возможностей, без дискриминации по любым признакам

Research Engineer, Infrastructure

Обязанности

Требования

Условия

Похожие вакансии

Research Engineer, Knowledge Foundations

Research, Mid-Training

Member of Technical Staff (AI Inference Engineer)

Member of Engineering (Reinforcement Learning Infrastructure)

Member of Technical Staff (AI Inference Engineer)

Post-Training Research Engineer