LLM

google представила turboquant для ускорения llm

Heli
Автор
Heli
Опубликовано 25.03.2026
0,0
Views 3

Google представила TurboQuant, новый алгоритм сжатия, который уменьшает память, необходимую для кэша "ключ-значение" в больших языковых моделях (LLM) в 6 раз и обеспечивает ускорение до 8 раз, при этом не снижая точности.

TurboQuant – это алгоритм квантования, который преобразует веса LLM из 16-битного формата в 8-битный, а затем применяет новую технику сжатия для дальнейшего уменьшения размера данных. Это позволяет значительно снизить требования к памяти, что особенно важно для развертывания LLM на устройствах с ограниченными ресурсами.

Исследования показали, что TurboQuant может уменьшить размер кэша "ключ-значение" в 6 раз без потери точности. Кроме того, он может ускорить процесс генерации текста в 8 раз по сравнению с использованием стандартных методов квантования.

Алгоритм TurboQuant доступен в виде открытого исходного кода.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости