Perplexity Выпустила Pplx-embed: Модели Для RAG

Perplexity выпустила pplx-embed – набор многоязыковых моделей для создания векторных представлений, оптимизированных для задач поиска в больших масштабах. Эти модели предназначены для обработки шума и сложности данных, доступных в интернете, и представляют собой готовое к использованию решение, альтернативное проприетарным API для создания эмбеддингов.

Архитектурные инновации: двунаправленное внимание и диффузия

Большинство больших языковых моделей (LLM) используют каузальную архитектуру, основанную на декодере. Однако, для задач создания эмбеддингов более важным является понимание полного контекста предложения, чем предсказание следующего токена. Исследовательская группа Perplexity решила эту проблему путем реализации двунаправленного внимания. Это позволяет модели одновременно обрабатывать все токены в последовательности, что приводит к более полному представлению скрытого состояния.

Кроме того, в моделях используется диффузионное предварительное обучение. В то время как диффузия часто применяется в генеративных медиа, ее использование для текстовых эмбеддингов помогает модели научиться восстанавливать чистые семантические сигналы из зашумленных или фрагментированных входных данных. Эта фаза предварительного обучения обеспечивает устойчивость модели при обработке неформатированного текста, часто встречающегося в открытом интернете.

Оптимизация для RAG: запрос против контекста

Распространенной проблемой в генерации на основе поиска (RAG) является "асимметрия" между кратким поисковым запросом пользователя и длинным фрагментом документа. Perplexity решает эту проблему, предлагая две специализированные версии модели:

pplx-embed-v1: Оптимизирована для независимых текстовых эмбеддингов и поисковых запросов.
pplx-embed-context-v1: Специально настроена для фрагментов документов, используемых в качестве базы знаний в конвейерах RAG.

Разделяя эти роли, модели лучше согласовывают векторное пространство между тем, что спрашивает пользователь, и конкретной информацией, хранящейся в базе данных. Эти модели были проверены на реальных поисковых сценариях с участием десятков миллионов документов.

Технические спецификации и эффективность

Модели доступны в двух масштабах параметров для баланса между производительностью и вычислительными затратами:

Характеристика	Модель 0.6B	Модель 4B
Основное применение	Высокая пропускная способность, низкая задержка	Сложное семантическое рассуждение
Квантизация	Нативная поддержка INT8	Нативная поддержка INT8
Архитектура	На основе Qwen3	На основе Qwen3
Внимание	Двунаправленное	Двунаправленное

Включение нативной квантизации INT8 позволяет инженерам развертывать эти модели с значительно меньшим объемом памяти и более высокой скоростью вывода. Это делает модель 4B жизнеспособной для производственных сред, которым ранее требовались меньшие и менее производительные модели.

Ключевые выводы

Двунаправленная архитектура через диффузию: В отличие от стандартных моделей на основе декодера (таких как оригинальный Qwen3), Perplexity преобразовала их в двунаправленные энкодеры, используя диффузионное предварительное обучение. Это позволяет модели "видеть" весь контекст предложения сразу, создавая более точные семантические представления для зашумленных данных веб-масштаба.
Специализированные варианты RAG: Выпуск предоставляет две отдельные модели для оптимизации генерации на основе поиска: pplx-embed-v1 настроена для независимых запросов и отдельных текстов, а pplx-embed-context-v1 специально предназначена для фрагментов документов, обеспечивая лучшее соответствие между тем, что спрашивают пользователи, и тем, как хранится информация.
Производительность, готовая к производству: Модели поддерживают нативную INT8 и двоичную квантизацию, значительно снижая требования к хранилищу и памяти (до 32x для двоичной) без существенной потери точности. Они также используют обучение представлению Matryoshka (MRL), позволяющее разработчикам усекать размерность векторов для снижения затрат при сохранении высокой производительности.

Ознакомиться с более подробной информацией можно по следующим ссылкам: статья, веса моделей и технические детали.

Архитектурные инновации: двунаправленное внимание и диффузия

Оптимизация для RAG: запрос против контекста

Технические спецификации и эффективность

Ключевые выводы

Похожие новости

RobustVisRAG: Улучшение устойчивости VisRAG к искажениям

RAG против промптов: выбор релевантной информации

pymatgen: анализ и моделирование кристаллических структур