Как правильно увеличивать модели: гиперпараметры и теплый старт
Исследователи изучают метод масштабирования нейросетей — запуск обучения больших моделей «на старте» из уже обученных меньших. Это позволяет передать знания и ускорить сходимость. Однако при увеличении модели возникает проблема: гиперпараметры, подобранные для малой версии, не всегда работают хорошо для большой. Классический подход — экстраполяция гиперпараметров по эмпирическим закономерностям — до сих пор не проверялся в таких сценариях.
Учёные предложили обоснованный способ масштабирования, основанный на идее $μ$P и применимый к широкому классу архитектур и оптимизаторов. Метод теоретически гарантирует эквивалентность масштабированной и «расширенной» модели, а также позволяет корректно анализировать предельный случай бесконечной ширины. Дополнительно они расширили теорию $μ$Transfer — теперь она позволяет передавать гиперпараметры между моделями разного размера при использовании их подхода.
Эксперименты подтвердили эффективность метода на реальных датасетах и архитектурах. Его можно применять без дополнительных затрат на полный перебор гиперпараметров для больших моделей.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.