Cognition09.04.2026

Research Engineer, Infrastructure

Полная занятостьОфис

Обязанности

  • 01Создавать и поддерживать системы для запуска крупномасштабных обучающих задач на GPU-кластерах
  • 02Обеспечивать надежность и отказоустойчивость распределенных систем обучения
  • 03Оптимизировать производительность обучения по всем этапам: загрузка данных, коммуникационные накладные расходы, использование памяти и эффективность вычислений
  • 04Разрабатывать и поддерживать системы оркестрации экспериментов для запуска, отслеживания и анализа исследований
  • 05Создавать высокопроизводительные и надежные конвейеры обработки данных для обучения и оценки моделей
  • 06Диагностировать и устранять сбои в обучении на GPU, сетях, численных вычислениях и данных
  • 07Внедрять и оптимизировать стратегии параллелизма: распределение данных, тензоров, конвейеров и последовательностей
  • 08Прогнозировать потребности исследовательской команды и разрабатывать инфраструктуру до того, как она станет ограничением

Требования

  • 01Глубокий опыт создания и эксплуатации распределенных систем обучения для крупных моделей
  • 02Знание системного инжиниринга: распределенные системы, сети, хранение данных и способность анализировать производительность на уровне hardware-software
  • 03Владение Python и C++; опыт работы с PyTorch или аналогичными фреймворками на уровне систем, а не только API
  • 04Практический опыт профилирования GPU, оптимизации памяти и вычислительной эффективности
  • 05Опыт внедрения или оптимизации стратегий параллелизма (распределение данных, тензоров, конвейеров, последовательностей) для обучения крупных моделей
  • 06Опыт создания инструментов и абстракций, ускоряющих исследовательские процессы
  • 07Навыки отладки сложных распределенных систем с неопределенными и трудно воспроизводимыми сбоями
  • 08Понимание машинного обучения на уровне, достаточном для продуктивного взаимодействия с исследователями
  • 09Способность работать в быстром темпе с минимальными бюрократическими процессами

Условия

  • 01Работа в небольшой, высокоизбирательной команде, где исследования и продукт развиваются параллельно
  • 02Ответственность за инфраструктуру, работающую на тысячах GPU
  • 03Доступ к необходимым вычислительным ресурсам без ограничений
  • 04Минимальные бюрократические процессы, высокая автономность и техническая глубина
  • 05Работа в одной из самых конкурентных и быстроразвивающихся областей ИИ
  • 06Равенство возможностей, без дискриминации по любым признакам