Технический доклад Олега Шляжко про то как именно СберДевайсы тренируют RuGPT3
https://youtu.be/GAWADIsBb0Y?t=5094Выглядит разумным подход внимательно смотреть, что происходит в англоязычном NLP, адаптировать открытые результаты для русского. Архитектуры от OpenAI, фреймворк Microsoft DeepSpeed, Sparse Self-Attention как в OpenAI. Грубо говоря, мало кодить, с ресурсами меньше, чем у OpenAI получить результат как у OpenAI
- Снова расцвет мейнфреймов, вычисления дороже программистов
-
https://youtu.be/GAWADIsBb0Y?t=5516 Путь от GPT2 Small до RuGPT3 XL
https://huggingface.co/sberbank-ai/rugpt3xl- Кристофари 200Гб Инфинибенд линки, почти линейный Data Parallel, работает пока модель оптимизатор и данные умещаются на одну GPU
- FP32 Adam 12 байт на вес, Mixed precision FP16 14 байт, Pure FP16 вроде у OpenAI непубличный 6 байт
- Мегабайты на батч, гигабайты на активации, V100 лимит ~2B весов для тренировки
- Megatron-LM, распределенное вычисление тензоров
- Microsoft ZERO, разложить состояние Adam по нескольким GPU
- Microsoft DeepSpeed, фреймворк с трюками выше
- DeepSpeed Offload, выгрузить часть в CPU RAM