LFM2-24B-A2B: Новая архитектура ИИ для периферийных устройств
Гонка в области генеративного ИИ долгое время была игрой в "больше - лучше". Но по мере того, как отрасль достигает пределов энергопотребления и узких мест в памяти, разговор смещается с необработанного количества параметров к архитектурной эффективности. Команда Liquid AI возглавляет этот процесс с выпуском LFM2-24B-A2B, модели с 24 миллиардами параметров, которая переосмысливает то, чего мы должны ожидать от ИИ, пригодного для периферийных устройств.
The ‘A2B’ Architecture: A 1:3 Ratio for Efficiency
"A2B" в названии модели означает "Attention-to-Base". В традиционном Transformer каждый слой использует Softmax Attention, который масштабируется квадратично (O(N2)) с длиной последовательности. Это приводит к огромным кэшам KV (Key-Value), которые поглощают VRAM.
Команда Liquid AI обходит это, используя гибридную структуру. "Base"-слои являются эффективными блоками gated short convolution, а "Attention"-слои используют Grouped Query Attention (GQA).
В конфигурации LFM2-24B-A2B модель использует соотношение 1:3:
- Всего слоев: 40
- Convolution Blocks: 30
- Attention Blocks: 10
Перемешивая небольшое количество GQA-блоков с большинством gated convolution-слоев, модель сохраняет высокоточное извлечение и рассуждения Transformer, сохраняя при этом быстрый prefill и небольшой объем памяти линейно-сложной модели.
Sparse MoE: 24B Intelligence on a 2B Budget
Самое важное в LFM2-24B-A2B - это конструкция Mixture of Experts (MoE). Хотя модель содержит 24 миллиарда параметров, она активирует только 2,3 миллиарда параметров на токен.
Это меняет правила игры для развертывания. Поскольку активный путь параметров настолько мал, модель может поместиться в 32 ГБ оперативной памяти. Это означает, что она может работать локально на высокопроизводительных потребительских ноутбуках, настольных компьютерах с интегрированными графическими процессорами (iGPU) и выделенными NPU без необходимости в A100 уровня дата-центра. Она эффективно обеспечивает плотность знаний модели 24B с скоростью вывода и энергоэффективностью модели 2B.
Benchmarks: Punching Up
Команда Liquid AI сообщает, что семейство LFM2 следует предсказуемому, логарифмически-линейному масштабированию. Несмотря на меньшее количество активных параметров, модель 24B-A2B последовательно превосходит более крупные модели-соперники.
- Logic and Reasoning: В тестах, таких как GSM8K и MATH-500, она соперничает с плотными моделями в два раза большего размера.
- Throughput: При тестировании на одном NVIDIA H100 с использованием vLLM, она достигла 26,8 тыс. всего токенов в секунду при 1024 одновременных запросах, значительно опережая Snowflake’s gpt-oss-20b и Qwen3-30B-A3B.
- Long Context: Модель имеет контекстное окно 32k токенов, оптимизированное для конфиденциальных RAG (Retrieval-Augmented Generation) pipelines и локального анализа документов.
Technical Cheat Sheet
| Property | Specification |
|---|---|
| Total Parameters | 24 Billion |
| Active Parameters | 2.3 Billion |
| Architecture | Hybrid (Gated Conv + GQA) |
| Layers | 40 (30 Base / 10 Attention) |
| Context Length | 32,768 Tokens |
| Training Data | 17 Trillion Tokens |
| License | LFM Open License v1.0 |
| Native Support | llama.cpp, vLLM, SGLang, MLX |
Key Takeaways
- Hybrid ‘A2B’ Architecture: Модель использует соотношение 1:3 Grouped Query Attention (GQA) к Gated Short Convolutions. Используя слои "Base" с линейной сложностью для 30 из 40 слоев, модель достигает гораздо более быстрой скорости prefill и decode со значительно уменьшенным объемом памяти по сравнению с традиционными Transformer, использующими только attention.
- Sparse MoE Efficiency: Несмотря на наличие 24 миллиарда общих параметров, модель активирует только 2,3 миллиарда параметров на токен. Этот дизайн "Sparse Mixture of Experts" позволяет ей обеспечить глубину рассуждений большой модели, сохраняя при этом задержку вывода и энергоэффективность модели с 2B параметрами.
- True Edge Capability: Оптимизированная с помощью архитектурного поиска с учетом аппаратного обеспечения, модель предназначена для размещения в 32 ГБ оперативной памяти. Это делает ее полностью развертываемой на потребительском оборудовании, включая ноутбуки с интегрированными графическими процессорами и NPU, без необходимости в дорогой инфраструктуре дата-центра.
- State-of-the-Art Performance: LFM2-24B-A2B превосходит более крупные конкуренты, такие как Qwen3-30B-A3B и Snowflake gpt-oss-20b по пропускной способности. В тестах показано, что она достигает примерно 26,8 тыс. токенов в секунду на одном H100, демонстрируя почти линейное масштабирование и высокую эффективность в задачах с длинным контекстом до своего 32k токенов.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru