gemma: новая открытая модель google с проблемами памяти

Google выпустила свою лучшую открытую модель на сегодняшний день, Gemma, но у неё есть проблема с памятью. Модель, доступная в четырёх размерах - E2B, E4B, 26B A4B (MoE), и 31B dense - с 31B моделью, размещённой на Hugging Face под лицензией Apache 2.0. Эта лицензия важна: предыдущие выпуски Gemma использовали собственную лицензию Google с ограничениями по использованию. Apache 2.0 устраняет эти препятствия для коммерческого использования. Бенчмарки показывают хорошие результаты. 31B модель набирает 89.2% на AIME 2026 без инструментов, 80% на LiveCodeBench v6 и 2150 по Codeforces ELO. Для сравнения, Gemma 3 27B набрала 110 баллов по этому же бенчмарку Codeforces. Меньшая модель E2B, имеющая всего 2.3 миллиарда эффективных параметров, превосходит Gemma 3 27B по MMLU Pro (60% против 67.6%), GPQA Diamond (43.4% против 42.4%) и LiveCodeBench (44% против 29.1%). Некоторые пользователи назвали это "сумасшедшим" - что является справедной реакцией. 31B - это плотная модель с 30.7B параметрами, контекстным окном в 256K токенов и гибридным механизмом внимания, который чередует локальное скользящее окно внимания (окно в 1024 токена) со слоями глобального внимания. Последний слой всегда глобальный. Для задач с длинным контекстом глобальные слои используют унифицированные ключи и значения с Proportional RoPE (p-RoPE), что позволяет Google добиться масштабируемой эффективности памяти без полного ухудшения качества рассуждений.Поддержка мультимодальности охватывает текст и изображения, с vision encoder, состоящим из 550M параметров. Модель может обрабатывать изображения с различным разрешением, используя настраиваемый бюджет токенов (от 70 до 1120 токенов на изображение) - более низкий бюджет для скорости при задачах классификации, более высокий бюджет для OCR и разбора документов, где важны детали. Меньшие модели E2B и E4B также поддерживают аудиовход до 30 секунд, обеспечивая одномодельные конвейеры для голосовых приложений.Встроен режим "мышления", который можно настроить. Включите <|think|> в системный запрос, чтобы активировать его; удалите его, чтобы отключить. Модель выводит трассу рассуждений в <|channel>thought[reasoning]<channel|> блоках перед окончательным ответом. В многоходовых беседах удалите контент рассуждений из истории перед следующим ходом пользователя - трассы рассуждений не передаются обратно.В кодировании явно сильная сторона. Codeforces ELO 31B в 2150 баллов - это значительный скачок по сравнению с любым другим в открытом доступе с таким размером. На r/LocalLLaMA, u/DigiDecode_ опубликовал скриншот, показывающий, что 31B опережает GLM-5 в LMSys, что было ощутимо, учитывая репутацию GLM-5.Модель доступна на Hugging Face и загружается через стандартный интерфейс Transformers. Для текстового и графического ввода: pip install -U transformers torch accelerate from transformers import AutoProcessor, AutoModelForCausalLM processor = AutoProcessor.from_pretrained("google/gemma-4-31B-it") model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31B-it", dtype="auto", device_map="auto") Используйте AutoModelForMultimodalLM, если вы работаете с изображениями или видео (или аудио для вариантов E2B/E4B).Рекомендуемые параметры выборки от Google: temperature=1.0 top_p=0.95 top_k=64. Для режима "мышления" передайте enable_thinking=True в apply_chat_template и используйте processor.parse_response() для разделения трассы рассуждений и окончательного ответа.Квантизации GGUF доступны через Unsloth. NVIDIA также предлагает бесплатную API точку доступа на build.nvidia.com с 40 запросами в минуту, что полезно для оценки перед переходом к локальному развертыванию.Для локального вывода рекомендуемая конфигурация Google для llama.cpp: --flash-attn on, --temp 1.0, --top-p 0.95, --top-k 64, --jinja. Вам потребуется квантизация KV, если у вас нет необычного количества VRAM.У 31B большой отпечаток кэша KV - следствие его мультимодальной архитектуры. На Reddit пользователи сообщили, что на видеокарте с 40 ГБ VRAM, Q8 квантизация (35 ГБ) не помещается даже при контексте 2K без дополнительной квантизации кэша KV до Q4. Qwen3.5-27B, для сравнения, помещается при полном контексте без квантизации KV на том же оборудовании. Обновление llama.cpp после выпуска улучшило это за счет правильной реализации скользящего окна внимания, что значительно снижает фиксированное выделение KV - но вам нужно будет повторно загрузить кванты Unsloth, если вы взяли их при запуске.

Похожие новости

Gemma 4: новая мультимодальная модель от Google

Опасения по поводу claude mythos и открытых весов моделей

Открытые веса и кибербезопасность: риски и перспективы

nvidia выпустила nemotron-cascade 2 – moe модель и ещё 9 новости

Безопасные конвейеры llm с outlines и pydantic и ещё 15 новости

gemma 4: новая модель от google deepmind