LFM2-24B-A2B: Новая архитектура ИИ для периферийных устройств

Гонка в области генеративного ИИ долгое время была игрой в "больше - лучше". Но по мере того, как отрасль достигает пределов энергопотребления и узких мест в памяти, разговор смещается с необработанного количества параметров к архитектурной эффективности. Команда Liquid AI возглавляет этот процесс с выпуском LFM2-24B-A2B, модели с 24 миллиардами параметров, которая переосмысливает то, чего мы должны ожидать от ИИ, пригодного для периферийных устройств.

The ‘A2B’ Architecture: A 1:3 Ratio for Efficiency

"A2B" в названии модели означает "Attention-to-Base". В традиционном Transformer каждый слой использует Softmax Attention, который масштабируется квадратично (O(N²)) с длиной последовательности. Это приводит к огромным кэшам KV (Key-Value), которые поглощают VRAM.

Команда Liquid AI обходит это, используя гибридную структуру. "Base"-слои являются эффективными блоками gated short convolution, а "Attention"-слои используют Grouped Query Attention (GQA).

В конфигурации LFM2-24B-A2B модель использует соотношение 1:3:

Всего слоев: 40
Convolution Blocks: 30
Attention Blocks: 10

Перемешивая небольшое количество GQA-блоков с большинством gated convolution-слоев, модель сохраняет высокоточное извлечение и рассуждения Transformer, сохраняя при этом быстрый prefill и небольшой объем памяти линейно-сложной модели.

Sparse MoE: 24B Intelligence on a 2B Budget

Самое важное в LFM2-24B-A2B - это конструкция Mixture of Experts (MoE). Хотя модель содержит 24 миллиарда параметров, она активирует только 2,3 миллиарда параметров на токен.

Это меняет правила игры для развертывания. Поскольку активный путь параметров настолько мал, модель может поместиться в 32 ГБ оперативной памяти. Это означает, что она может работать локально на высокопроизводительных потребительских ноутбуках, настольных компьютерах с интегрированными графическими процессорами (iGPU) и выделенными NPU без необходимости в A100 уровня дата-центра. Она эффективно обеспечивает плотность знаний модели 24B с скоростью вывода и энергоэффективностью модели 2B.

Benchmarks: Punching Up

Команда Liquid AI сообщает, что семейство LFM2 следует предсказуемому, логарифмически-линейному масштабированию. Несмотря на меньшее количество активных параметров, модель 24B-A2B последовательно превосходит более крупные модели-соперники.

Logic and Reasoning: В тестах, таких как GSM8K и MATH-500, она соперничает с плотными моделями в два раза большего размера.
Throughput: При тестировании на одном NVIDIA H100 с использованием vLLM, она достигла 26,8 тыс. всего токенов в секунду при 1024 одновременных запросах, значительно опережая Snowflake’s gpt-oss-20b и Qwen3-30B-A3B.
Long Context: Модель имеет контекстное окно 32k токенов, оптимизированное для конфиденциальных RAG (Retrieval-Augmented Generation) pipelines и локального анализа документов.

Technical Cheat Sheet

Property	Specification
Total Parameters	24 Billion
Active Parameters	2.3 Billion
Architecture	Hybrid (Gated Conv + GQA)
Layers	40 (30 Base / 10 Attention)
Context Length	32,768 Tokens
Training Data	17 Trillion Tokens
License	LFM Open License v1.0
Native Support	llama.cpp, vLLM, SGLang, MLX

Key Takeaways

Hybrid ‘A2B’ Architecture: Модель использует соотношение 1:3 Grouped Query Attention (GQA) к Gated Short Convolutions. Используя слои "Base" с линейной сложностью для 30 из 40 слоев, модель достигает гораздо более быстрой скорости prefill и decode со значительно уменьшенным объемом памяти по сравнению с традиционными Transformer, использующими только attention.
Sparse MoE Efficiency: Несмотря на наличие 24 миллиарда общих параметров, модель активирует только 2,3 миллиарда параметров на токен. Этот дизайн "Sparse Mixture of Experts" позволяет ей обеспечить глубину рассуждений большой модели, сохраняя при этом задержку вывода и энергоэффективность модели с 2B параметрами.
True Edge Capability: Оптимизированная с помощью архитектурного поиска с учетом аппаратного обеспечения, модель предназначена для размещения в 32 ГБ оперативной памяти. Это делает ее полностью развертываемой на потребительском оборудовании, включая ноутбуки с интегрированными графическими процессорами и NPU, без необходимости в дорогой инфраструктуре дата-центра.
State-of-the-Art Performance: LFM2-24B-A2B превосходит более крупные конкуренты, такие как Qwen3-30B-A3B и Snowflake gpt-oss-20b по пропускной способности. В тестах показано, что она достигает примерно 26,8 тыс. токенов в секунду на одном H100, демонстрируя почти линейное масштабирование и высокую эффективность в задачах с длинным контекстом до своего 32k токенов.

The ‘A2B’ Architecture: A 1:3 Ratio for Efficiency

Sparse MoE: 24B Intelligence on a 2B Budget

Benchmarks: Punching Up

Technical Cheat Sheet

Key Takeaways

Похожие новости

Пятиуровневая структура безопасности для автономных агентов llm и ещё 17 новости

Саморазвивающаяся система навыков на основе openspace и ещё 16 новости

ИИ: разделение на открытые модели и системы с ограниченным доступом

context hub: новый инструмент для кодирующих агентов от эндрю нга и ещё 12 но...

Будущее искусственного интеллекта и науки и ещё 12 новости

Безопасные конвейеры llm с outlines и pydantic и ещё 15 новости