LLM

Duel-evolve: масштабирование llm без вознаграждений

Heli
Автор
Heli
Опубликовано 02.03.2026
0,0
Views 1

Duel-Evolve – это метод масштабирования во время тестирования, который не требует использования вознаграждений. Он использует предпочтения, генерируемые большой языковой моделью (LLM) для самооценки.

В Duel-Evolve LLM генерирует несколько выходных данных, а затем оценивает их, выбирая лучший вариант. Этот процесс самооценки позволяет LLM улучшать свои результаты без необходимости в явных сигналах вознаграждения.

В отличие от других методов масштабирования во время тестирования, Duel-Evolve не требует обучения на основе вознаграждений или использования человеческой обратной связи. Вместо этого он полностью полагается на внутренние предпочтения LLM.

Этот подход демонстрирует конкурентоспособную производительность по сравнению с методами, основанными на вознаграждениях, на различных задачах, включая создание историй и генерацию кода. Duel-Evolve особенно хорошо работает в сценариях, где получение вознаграждений дорого или затруднительно.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие статьи