RAG против промптов: выбор релевантной информации

В современных языковых моделях значительно увеличилось количество информации, которое они могут обрабатывать в одном промпте. С моделями, способными обрабатывать сотни тысяч и даже миллионы токенов, легко предположить, что Retrieval-Augmented Generation (RAG) больше не нужен. Если весь код или библиотеку документации можно поместить в контекстное окно, зачем строить конвейер поиска?

Ключевое отличие заключается в том, что контекстное окно определяет, сколько информации может видеть модель, а RAG определяет, что именно модель должна видеть. Большое окно увеличивает емкость, но не улучшает релевантность. RAG фильтрует и выбирает наиболее важную информацию перед тем, как она достигнет модели, повышая соотношение сигнала к шуму, эффективность и надежность. Эти два подхода решают разные проблемы и не являются взаимозаменяемыми.

В статье сравниваются оба подхода напрямую. С использованием OpenAI API оценивается Retrieval-Augmented Generation против "грубой силы" добавления контекста в один и тот же корпус документации. Измеряется использование токенов, задержка и стоимость, а также демонстрируется, как размещение важной информации в больших промптах может повлиять на производительность модели. Результаты подчеркивают, что большие контекстные окна дополняют RAG, а не заменяют его.

Для эмбеддинга документов и запросов используется модель text-embedding-3-small, обеспечивающая эффективный семантический поиск. Для генерации и рассуждений используется gpt-4o, а учет токенов осуществляется с помощью соответствующей кодировки tiktoken для точного измерения размера контекста и стоимости.

Корпус состоит из 10 структурированных политических документов, содержащих около 650 токенов в общей сложности, каждый из которых варьируется от 54 до 83 токенов. Он включает в себя плотно упакованные числовые условия, условные правила и требования соответствия, что делает его подходящим для оценки точности поиска, плотности сигнала и эффекта "потерянный в середине" при больших контекстах.

Эксперименты показали, что RAG использовал значительно меньше токенов и работал быстрее, чем метод добавления всего контекста, при этом выдавая сопоставимые ответы. RAG смог сосредоточиться на релевантной информации, в то время как добавление всего контекста создало шум и увеличило вычислительные затраты.

Похожие новости

Perplexity Выпустила Pplx-embed: Модели Для RAG

RobustVisRAG: Улучшение устойчивости VisRAG к искажениям

pymatgen: анализ и моделирование кристаллических структур