Duel-evolve: масштабирование llm без вознаграждений

Автор

Heli

Опубликовано 02.03.2026

0,0

Duel-Evolve – это метод масштабирования во время тестирования, который не требует использования вознаграждений. Он использует предпочтения, генерируемые большой языковой моделью (LLM) для самооценки.

В Duel-Evolve LLM генерирует несколько выходных данных, а затем оценивает их, выбирая лучший вариант. Этот процесс самооценки позволяет LLM улучшать свои результаты без необходимости в явных сигналах вознаграждения.

В отличие от других методов масштабирования во время тестирования, Duel-Evolve не требует обучения на основе вознаграждений или использования человеческой обратной связи. Вместо этого он полностью полагается на внутренние предпочтения LLM.

Этот подход демонстрирует конкурентоспособную производительность по сравнению с методами, основанными на вознаграждениях, на различных задачах, включая создание историй и генерацию кода. Duel-Evolve особенно хорошо работает в сценариях, где получение вознаграждений дорого или затруднительно.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Duel-evolve: масштабирование llm без вознаграждений

Похожие статьи

radar: рассуждение как дискриминация для llm

Swe-protégé: обучение маленьких llm с помощью эксперта

Разработка многоагентной системы с использованием langgraph

google ai представляет static для ускорения llm

colyricist: ai для написания текстов песен

agentsentry: защита от косвенной инъекции промптов в llm