NVIDIA представила KVTC — сжатие KV-кэшей в LLM до 20 раз
Исследователи NVIDIA представили KVTC — метод трансформ-кодирования для эффективного сжатия ключевых и значимых кэшей (KV-кэшей), которые часто занимают гигабайты памяти на GPU. Кэш хранит промежуточные данные при обработке длинных контекстов, и его размер сильно ограничивает производительность больших языковых моделей.
KVTC достигает до 20-кратного сжатия (в отдельных случаях — до 40x), сохраняя точность модели в пределах 1 балла по сравнению с оригиналом. Система работает без изменения весов модели и использует классические идеи медиа-сжатия: PCA-декорреляцию признаков, адаптивную квантованную разрядность и сжатие DEFLATE. Важно, что 4 старших токена («attention sinks») и последние 128 токенов (sliding window) остаются без сжатия для сохранения качества.
Калибровка занимает менее 10 минут на GPU H100 для модели 12B, а дополнительный объём хранения — всего 2,4 % от параметров модели 70B. KVTC снижает задержку до первого токена (TTFT) до 8 раз при работе с 8K контекстом.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru