LLM

NVIDIA представляет Nemotron-3-Nano-30B в формате NVFP4

Heli
Автор
Heli
Опубликовано 02.02.2026
0,0
Views 24

NVIDIA выпустила Nemotron-3-Nano-30B-A3B-NVFP4 модель для логических рассуждений с 30 миллиардами общих параметров (из них ~3.2–3.5 млрд активных на проход), работающую в 4-битном формате NVFP4. При этом точность практически не уступает базовой версии BF16 разрыв составляет менее 1% на ключевых бенчмарках.

Модель сочетает гибридную архитектуру на основе Mamba-2, Transformer и механизма Mixture of Experts (MoE). Для квантования в NVFP4 применяется метод Quantization-Aware Distillation (QAD), который минимизирует KL-дивергенцию между выходными распределениями "учителя" (модели в BF16) и "ученика" (модели в NVFP4). Это позволяет добиться до 4-кратного увеличения пропускной способности (throughput) на GPU B200 архитектуры Blackwell.

Согласно тестам, новая версия NVFP4 восстанавливает производительность до уровня BF16, сокращая разрыв всего до нескольких процентов в различных тестах на рассуждение и программировании.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Похожие новости