nemotron 3 nano 4b: компактная модель для локального ai

Nemotron 3 Nano 4B – это компактная гибридная модель, предназначенная для эффективной локальной работы искусственного интеллекта. Она сочетает в себе архитектуры декодера и энкодера-декодера для достижения высокой производительности при небольшом размере. Модель имеет 4 миллиарда параметров.

Архитектура и обучение

Nemotron 3 Nano 4B построена на основе архитектуры Mistral 7B и обучена на 80 миллиардах токенов с использованием смеси данных, состоящей из текста, кода и математического контента. Для улучшения качества ответов применяется техника обучения с подкреплением на основе обратной связи от человека (RLHF).

Производительность

Несмотря на свой небольшой размер, Nemotron 3 Nano 4B демонстрирует впечатляющие результаты. В тестах производительности модель достигает 88% от производительности Llama 2 7B на различных бенчмарках. Она особенно хорошо справляется с задачами, требующими логического мышления и генерации кода.

Локальное использование

Благодаря небольшому размеру, Nemotron 3 Nano 4B идеально подходит для развертывания на устройствах с ограниченными ресурсами, таких как ноутбуки и смартфоны. Это позволяет использовать возможности искусственного интеллекта без необходимости подключения к облачным сервисам.

Модель доступна на платформе Hugging Face: Nemotron 3 Nano 4B. Дополнительную информацию можно найти в научной работе: Исследовательская статья.

Архитектура и обучение

Производительность

Локальное использование

Похожие новости

multilevel training for kolmogorov arnold networks

Alibaba представляет Qwen 3.5: новые LLM с высокой эффективностью

nvidia выпустила nemotron 3 super – открытую модель moe

LFM2-24B-A2B: Новая архитектура ИИ для периферийных устройств

Olmo: новая гибридная языковая модель от together ai

Google peft: маленькие модели ai превосходят гигантов