LLM

Архитектура запросов и рассуждения LLM: Задача автомойки

Heli
Автор
Heli
Опубликовано 27.02.2026
0,0
Views 3

Большие языковые модели (LLM) постоянно терпят неудачу при решении так называемой «задачи автомойки» — популярного теста для оценки рассуждений, требующего неявного вывода физических ограничений. Мы провели исследование, направленное на определение того, какие элементы архитектуры запроса в рабочей системе позволяют получить верные ответы.

Исследование архитектуры запроса и качества рассуждений

В ходе исследования (n=20 на каждую из 6 условий, всего 120 попыток) мы использовали модель Claude 3.5 Sonnet с контролируемыми гиперпараметрами (температура 0.7, top_p 1.0). Результаты показали, что использование только фреймворка STAR (Ситуация-Задача-Действие-Результат) для организации рассуждений повышает точность с 0% до 85% (p=0.001, точный тест Фишера, отношение шансов 13.22).

Влияние контекста пользователя и RAG

Добавление контекста пользователя, полученного с помощью векторной базы данных, дало дополнительный прирост в 10 процентных пунктов. Использование контекста, полученного с помощью RAG (Retrieval-Augmented Generation), способствовало еще 5 процентному увеличению, что позволило достичь 100% точности при использовании полного стека условий.

Важность структурированного подхода

Полученные данные свидетельствуют о том, что структурированные подходы к рассуждениям — в частности, принудительное определение цели перед выводом — имеют значительно большее значение, чем простое добавление контекста, при решении задач, требующих неявного учета физических ограничений. Иными словами, правильно организованный запрос, который направляет модель на последовательное обдумывание задачи, гораздо эффективнее, чем предоставление большого объема дополнительной информации.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости