Hugging face выпустила trl v1.0 для обучения llm

Автор

Heli

Опубликовано 01.04.2026

0,0

Компания Hugging Face выпустила TRL v1.0 – унифицированный пакет для постобучения, охватывающий SFT, моделирование вознаграждений, DPO и рабочие процессы GRPO. TRL v1.0 создан для упрощения процесса настройки больших языковых моделей (LLM) с использованием различных методов обучения с подкреплением.

TRL v1.0 предлагает единый интерфейс для обучения моделей с использованием supervised fine-tuning (SFT), обучения с подкреплением на основе вознаграждения (RLHF) с помощью моделей вознаграждений или прямой оптимизации предпочтений (DPO) и GRPO. В пакет включены инструменты для подготовки данных, обучения и оценки моделей.

Ключевой особенностью TRL v1.0 является его модульность. Пользователи могут выбирать и комбинировать различные компоненты в соответствии со своими потребностями. Например, можно использовать предварительно обученную модель из Hugging Face Hub и настроить ее с помощью SFT, а затем использовать модель вознаграждений для дальнейшей оптимизации с помощью DPO.

TRL v1.0 также поддерживает различные типы моделей, включая модели на основе трансформеров. Он совместим с PyTorch и TensorFlow.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Похожие новости

Hugging face выпустила trl v1.0 для обучения llm

Похожие новости

trl v1.0: библиотека для тонкой настройки llm

Саморазвивающаяся система навыков на основе openspace и ещё 16 новости

nvidia выпустила nemotron-cascade 2 – moe модель и ещё 9 новости

Стратегии безопасного развертывания моделей машинного обучения и ещё 13 новости

Пятиуровневая структура безопасности для автономных агентов llm и ещё 17 новости

context hub: новый инструмент для кодирующих агентов от эндрю нга и ещё 12 но...