RAG

RAG против промптов: выбор релевантной информации

Heli
Автор
Heli
Опубликовано 24.02.2026
0,0
Views 3

В современных языковых моделях значительно увеличилось количество информации, которое они могут обрабатывать в одном промпте. С моделями, способными обрабатывать сотни тысяч и даже миллионы токенов, легко предположить, что Retrieval-Augmented Generation (RAG) больше не нужен. Если весь код или библиотеку документации можно поместить в контекстное окно, зачем строить конвейер поиска?

Ключевое отличие заключается в том, что контекстное окно определяет, сколько информации может видеть модель, а RAG определяет, что именно модель должна видеть. Большое окно увеличивает емкость, но не улучшает релевантность. RAG фильтрует и выбирает наиболее важную информацию перед тем, как она достигнет модели, повышая соотношение сигнала к шуму, эффективность и надежность. Эти два подхода решают разные проблемы и не являются взаимозаменяемыми.

В статье сравниваются оба подхода напрямую. С использованием OpenAI API оценивается Retrieval-Augmented Generation против "грубой силы" добавления контекста в один и тот же корпус документации. Измеряется использование токенов, задержка и стоимость, а также демонстрируется, как размещение важной информации в больших промптах может повлиять на производительность модели. Результаты подчеркивают, что большие контекстные окна дополняют RAG, а не заменяют его.

Для эмбеддинга документов и запросов используется модель text-embedding-3-small, обеспечивающая эффективный семантический поиск. Для генерации и рассуждений используется gpt-4o, а учет токенов осуществляется с помощью соответствующей кодировки tiktoken для точного измерения размера контекста и стоимости.

Корпус состоит из 10 структурированных политических документов, содержащих около 650 токенов в общей сложности, каждый из которых варьируется от 54 до 83 токенов. Он включает в себя плотно упакованные числовые условия, условные правила и требования соответствия, что делает его подходящим для оценки точности поиска, плотности сигнала и эффекта "потерянный в середине" при больших контекстах.

Эксперименты показали, что RAG использовал значительно меньше токенов и работал быстрее, чем метод добавления всего контекста, при этом выдавая сопоставимые ответы. RAG смог сосредоточиться на релевантной информации, в то время как добавление всего контекста создало шум и увеличило вычислительные затраты.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости