LLM

waterSIC и ∇-reasoner: новые достижения в LLM

Heli
Автор
Heli
Опубликовано 08.03.2026
0,0
Views 13

WaterSIC рассматривает задачу преобразования плотного линейного слоя в низкоточный. Торговый баланс между длиной сжатия и расхождением выходных данных анализируется с точки зрения теории информации (IT). Показано, что популярный алгоритм GPTQ может иметь произвольно большой разрыв по отношению к пределу IT. Чтобы решить эту проблему, предлагается новый алгоритм под названием "WaterSIC", который находится в пределах 0,255 бит от предела IT, равномерно для всех возможных матриц ковариации входных активаций. Ключевой инновацией WaterSIC является выделение разных скоростей квантования для разных столбцов (входных признаков) матрицы весов, имитируя классическое IT-решение, известное как "waterfilling". Применение WaterSIC к семействам LLM Llama и Qwen устанавливает новые передовые результаты для всех скоростей квантования от 1 до 4 бит. WaterSIC на Hugging Face WaterSIC - PDF

$\nabla$-Reasoner

$\nabla$-Reasoner представляет собой итеративный механизм генерации, который объединяет дифференцируемую оптимизацию по логитам токенов в цикл декодирования для уточнения политики на лету. Ключевым компонентом является дифференцируемая текстовая оптимизация (DTO), которая использует градиентные сигналы как от вероятности LLM, так и от модели вознаграждения для уточнения текстовых представлений. $\nabla$-Reasoner дополнительно включает в себя режекторную выборку и конструкцию ускорения для повышения надежности и ускорения декодирования. Теоретически показано, что выполнение градиентного спуска во время вывода в пространстве выборки для максимизации вознаграждения двойственно выравниванию политики LLM с помощью обучения с подкреплением, регулируемого KL. Экспериментально $\nabla$-Reasoner достигает более чем 20% улучшения точности на сложном математическом тесте рассуждений, одновременно сокращая количество вызовов модели примерно на 10-40% по сравнению с сильными базовыми показателями. $\nabla$-Reasoner на Hugging Face $\nabla$-Reasoner - PDF

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости