google представила turboquant для ускорения llm
Google представила TurboQuant, новый алгоритм сжатия, который уменьшает память, необходимую для кэша "ключ-значение" в больших языковых моделях (LLM) в 6 раз и обеспечивает ускорение до 8 раз, при этом не снижая точности.
TurboQuant – это алгоритм квантования, который преобразует веса LLM из 16-битного формата в 8-битный, а затем применяет новую технику сжатия для дальнейшего уменьшения размера данных. Это позволяет значительно снизить требования к памяти, что особенно важно для развертывания LLM на устройствах с ограниченными ресурсами.
Исследования показали, что TurboQuant может уменьшить размер кэша "ключ-значение" в 6 раз без потери точности. Кроме того, он может ускорить процесс генерации текста в 8 раз по сравнению с использованием стандартных методов квантования.
Алгоритм TurboQuant доступен в виде открытого исходного кода.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru