NVIDIA представляет Nemotron-3-Nano-30B в формате NVFP4

Автор

Heli

Опубликовано 02.02.2026

0,0

NVIDIA выпустила Nemotron-3-Nano-30B-A3B-NVFP4 модель для логических рассуждений с 30 миллиардами общих параметров (из них ~3.2–3.5 млрд активных на проход), работающую в 4-битном формате NVFP4. При этом точность практически не уступает базовой версии BF16 разрыв составляет менее 1% на ключевых бенчмарках.

Модель сочетает гибридную архитектуру на основе Mamba-2, Transformer и механизма Mixture of Experts (MoE). Для квантования в NVFP4 применяется метод Quantization-Aware Distillation (QAD), который минимизирует KL-дивергенцию между выходными распределениями "учителя" (модели в BF16) и "ученика" (модели в NVFP4). Это позволяет добиться до 4-кратного увеличения пропускной способности (throughput) на GPU B200 архитектуры Blackwell.

Согласно тестам, новая версия NVFP4 восстанавливает производительность до уровня BF16, сокращая разрыв всего до нескольких процентов в различных тестах на рассуждение и программировании.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Похожие новости

НАВИГАЦИЯ

МЕНЮ

NVIDIA представляет Nemotron-3-Nano-30B в формате NVFP4

Похожие новости

Canzona: асинхронный фреймворк для распределённых оптимизаторов на матрицах

Google представляет Conductor: расширение Gemini CLI с контекстным управлением

Многоуровневые фильтры безопасности для LLM: защита от атак | Новости ИИ

Исследование MIT: рейтинги больших языковых моделей могут быть нестабильными