google представила turboquant для ускорения llm

Автор

Heli

Опубликовано 25.03.2026

0,0

Google представила TurboQuant, новый алгоритм сжатия, который уменьшает память, необходимую для кэша "ключ-значение" в больших языковых моделях (LLM) в 6 раз и обеспечивает ускорение до 8 раз, при этом не снижая точности.

TurboQuant – это алгоритм квантования, который преобразует веса LLM из 16-битного формата в 8-битный, а затем применяет новую технику сжатия для дальнейшего уменьшения размера данных. Это позволяет значительно снизить требования к памяти, что особенно важно для развертывания LLM на устройствах с ограниченными ресурсами.

Исследования показали, что TurboQuant может уменьшить размер кэша "ключ-значение" в 6 раз без потери точности. Кроме того, он может ускорить процесс генерации текста в 8 раз по сравнению с использованием стандартных методов квантования.

Алгоритм TurboQuant доступен в виде открытого исходного кода.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Похожие новости

google представила turboquant для ускорения llm

Похожие новости

turboquant: экстремальное сжатие для больших языковых моделей

Ускорение обучения LLM: новый метод от MIT и NVIDIA

NVIDIA представила KVTC — сжатие KV-кэшей в LLM до 20 раз

gmt: целевой мультимодальный трансформер для 3d-траекторий

multilevel training for kolmogorov arnold networks

Новый метод выявления чрезмерной уверенности в больших языковых моделях