Новый метод ускоряет обучение больших языковых моделей

Большие языковые модели (LLM), предназначенные для решения сложных задач, работают, разбивая их на более простые этапы. Они особенно хороши в таких областях, как программирование и многоступенчательное планирование. Однако обучение таких моделей требует огромных вычислительных ресурсов и энергозатрат из-за неэффективности процесса.

Исследователи из MIT и других организаций разработали новый метод, позволяющий ускорить обучение моделей, используя время простоя вычислительных ресурсов. Система автоматически обучает небольшую, быструю модель прогнозировать результаты работы более крупной модели, которую затем проверяет.

Ключевой особенностью является адаптивное обучение и использование небольшой модели только тогда, когда часть процессоров не занята. Это позволяет ускорить процесс обучения, не увеличивая при этом затраты. В ходе тестирования скорость обучения увеличилась в два раза, сохранив при этом точность. Это может снизить стоимость и повысить энергоэффективность разработки продвинутых LLM.

Разработчики стремятся научить модели выявлять и исправлять ошибки в процессе мышления, что позволяет им справляться со сложными задачами. Новый подход может помочь в решении таких задач, как прогнозирование финансовых трендов или обнаружение рисков в энергетических сетях.

НАВИГАЦИЯ

МЕНЮ

Похожие новости

Ученые выявили скрытые черты больших языковых моделей

3LM: Новый тест для оценки LLM на арабском языке

Alibaba представляет Qwen 3.5: новые LLM с высокой эффективностью

Исследование MIT: рейтинги больших языковых моделей могут быть нестабильными

FlowPrefill: Оптимизация больших языковых моделей

Google: Новый подход к точности и экономии LLM