Архитектура запросов и рассуждения LLM: Задача автомойки

Большие языковые модели (LLM) постоянно терпят неудачу при решении так называемой «задачи автомойки» — популярного теста для оценки рассуждений, требующего неявного вывода физических ограничений. Мы провели исследование, направленное на определение того, какие элементы архитектуры запроса в рабочей системе позволяют получить верные ответы.

Исследование архитектуры запроса и качества рассуждений

В ходе исследования (n=20 на каждую из 6 условий, всего 120 попыток) мы использовали модель Claude 3.5 Sonnet с контролируемыми гиперпараметрами (температура 0.7, top_p 1.0). Результаты показали, что использование только фреймворка STAR (Ситуация-Задача-Действие-Результат) для организации рассуждений повышает точность с 0% до 85% (p=0.001, точный тест Фишера, отношение шансов 13.22).

Влияние контекста пользователя и RAG

Добавление контекста пользователя, полученного с помощью векторной базы данных, дало дополнительный прирост в 10 процентных пунктов. Использование контекста, полученного с помощью RAG (Retrieval-Augmented Generation), способствовало еще 5 процентному увеличению, что позволило достичь 100% точности при использовании полного стека условий.

Важность структурированного подхода

Полученные данные свидетельствуют о том, что структурированные подходы к рассуждениям — в частности, принудительное определение цели перед выводом — имеют значительно большее значение, чем простое добавление контекста, при решении задач, требующих неявного учета физических ограничений. Иными словами, правильно организованный запрос, который направляет модель на последовательное обдумывание задачи, гораздо эффективнее, чем предоставление большого объема дополнительной информации.

Исследование архитектуры запроса и качества рассуждений

Влияние контекста пользователя и RAG

Важность структурированного подхода

Похожие новости

Будущее искусственного интеллекта и науки и ещё 12 новости

ИИ: разделение на открытые модели и системы с ограниченным доступом

Стратегии безопасного развертывания моделей машинного обучения и ещё 13 новости

Пятиуровневая структура безопасности для автономных агентов llm и ещё 17 новости

Безопасные конвейеры llm с outlines и pydantic и ещё 15 новости

context hub: новый инструмент для кодирующих агентов от эндрю нга и ещё 12 но...