ExpLang: Многоязычное обучение с подкреплением для LLM

Современные большие языковые модели (LLM), прошедшие постобучение с использованием обучения с подкреплением (RL), демонстрируют значительные успехи в решении сложных задач. Однако предыдущие исследования в основном фокусировались на рассуждениях на английском языке, предполагая, что это обеспечит наилучшие результаты. Это происходило, несмотря на доказанный потенциал многоязычного мышления и потребность пользователей по всему миру в использовании родного языка при рассуждениях.

Новый подход к многоязычному обучению с подкреплением

В данной работе представлен ExpLang – новый конвейер постобучения LLM, который обеспечивает выбор языка для рассуждений в процессе RL. Это позволяет улучшить исследование (exploration) и использование (exploitation) возможностей модели при обучении с использованием нескольких языков.

Результаты показывают, что метод ExpLang стабильно превосходит обучение только на английском языке при одинаковом объеме вычислительных ресурсов. При этом обеспечивается высокая степень соответствия выбранному языку как для знакомых, так и для незнакомых языков.

Как работает ExpLang

Анализ показывает, что, позволяя выбирать язык рассуждений в качестве действия во время RL, ExpLang эффективно расширяет пространство исследования RL за счет разнообразия языковых предпочтений и улучшает результаты использования за счет использования преимуществ неанглийских языков.

Метод ExpLang является независимым от большинства алгоритмов RL и открывает новый взгляд на использование многоязычности для улучшения больших языковых моделей. Он позволяет модели динамически выбирать наиболее подходящий язык для выполнения конкретной задачи, что приводит к более эффективному и гибкому процессу обучения.

Новый подход к многоязычному обучению с подкреплением

Как работает ExpLang

Похожие новости

Ускорение обучения LLM: новый метод от MIT и NVIDIA

Будущее искусственного интеллекта и науки и ещё 12 новости

Пятиуровневая структура безопасности для автономных агентов llm и ещё 17 новости

Саморазвивающаяся система навыков на основе openspace и ещё 16 новости

Безопасные конвейеры llm с outlines и pydantic и ещё 15 новости

nvidia выпустила nemotron-cascade 2 – moe модель и ещё 9 новости