Duel-evolve: масштабирование llm без вознаграждений
Duel-Evolve – это метод масштабирования во время тестирования, который не требует использования вознаграждений. Он использует предпочтения, генерируемые большой языковой моделью (LLM) для самооценки.
В Duel-Evolve LLM генерирует несколько выходных данных, а затем оценивает их, выбирая лучший вариант. Этот процесс самооценки позволяет LLM улучшать свои результаты без необходимости в явных сигналах вознаграждения.
В отличие от других методов масштабирования во время тестирования, Duel-Evolve не требует обучения на основе вознаграждений или использования человеческой обратной связи. Вместо этого он полностью полагается на внутренние предпочтения LLM.
Этот подход демонстрирует конкурентоспособную производительность по сравнению с методами, основанными на вознаграждениях, на различных задачах, включая создание историй и генерацию кода. Duel-Evolve особенно хорошо работает в сценариях, где получение вознаграждений дорого или затруднительно.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru