NVIDIA представляет Nemotron-3-Nano-30B в формате NVFP4
NVIDIA выпустила Nemotron-3-Nano-30B-A3B-NVFP4 модель для логических рассуждений с 30 миллиардами общих параметров (из них ~3.2–3.5 млрд активных на проход), работающую в 4-битном формате NVFP4. При этом точность практически не уступает базовой версии BF16 разрыв составляет менее 1% на ключевых бенчмарках.
Модель сочетает гибридную архитектуру на основе Mamba-2, Transformer и механизма Mixture of Experts (MoE). Для квантования в NVFP4 применяется метод Quantization-Aware Distillation (QAD), который минимизирует KL-дивергенцию между выходными распределениями "учителя" (модели в BF16) и "ученика" (модели в NVFP4). Это позволяет добиться до 4-кратного увеличения пропускной способности (throughput) на GPU B200 архитектуры Blackwell.
Согласно тестам, новая версия NVFP4 восстанавливает производительность до уровня BF16, сокращая разрыв всего до нескольких процентов в различных тестах на рассуждение и программировании.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.