Liquid AI представляет LFM2-24B-A2B: эффективная LLM
В гонке генеративных моделей все большее значение приобретает не размер, а эффективность. Компания Liquid AI выпустила LFM2-24B-A2B – 24-миллиардную модель, способную работать на устройствах с ограниченными ресурсами.
Новая архитектура сочетает в себе механизмы внимания и свёрточные слои, чтобы решить проблемы масштабирования, с которыми сталкиваются современные большие языковые модели. Ключевой особенностью является гибридная структура, где "базовые" слои используют свёрточные блоки, а "слои внимания" – GQA (Grouped Query Attention).
Модель использует соотношение 1:3 между свёрточными и attention блоками (30 и 10 соответственно из 40 слоев), что позволяет добиться высокой скорости обработки и низкого потребления памяти. Благодаря использованию Mixture of Experts (MoE) активируется лишь 2.3 миллиарда параметров из 24, что позволяет модели помещаться в 32 ГБ RAM.
В тестах LFM2-24B-A2B показывает результаты, сравнимые с более крупными моделями, достигая скорости 26.8 тыс. токенов в секунду на одном H100 и поддерживая контекстное окно в 32 тысячи токенов.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru