MaBERT, Variance Reduction & CGL: Latest AI Research

MaBERT: Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

MaBERT – это гибридный энкодер, который чередует слои Transformer для моделирования глобальных зависимостей со слоями Mamba для линейных временных обновлений состояния. Такой дизайн сочетает глобальную контекстную интеграцию с быстрым накоплением состояния, обеспечивая эффективное обучение и вывод для длинных входных данных. Для стабилизации пакетной обработки переменной длины введена маскировка, блокирующая распространение состояния через заполненные позиции, и агрегирование информации только из допустимых токенов с помощью маски. На GLUE, MaBERT достигает наилучшего среднего результата по пяти из восьми задач, с хорошей производительностью в задачах CoLA и логического вывода по парным предложениям. При увеличении контекста с 512 до 4096 токенов, MaBERT сокращает время обучения и задержку вывода на 2,36x и 2,43x соответственно, по сравнению со средним показателем базовых энкодеров. MaBERT Hugging Face MaBERT PDF MaBERT ArXiv

Variance reduction in lattice QCD observables via normalizing flows

Нормализующие потоки могут быть использованы для построения несмещенных, оценок с пониженной дисперсией для наблюдаемых в теории решетки, определяемых производной по параметрам действия. Работа реализует этот подход для наблюдаемых, включающих вставки глюонных операторов в SU(3) Янг-Миллеровской теории и двух-флейворовую квантовую хромодинамику (QCD) в четырех пространственно-временных измерениях. Снижение дисперсии в диапазоне от 10 до 60 достигается в корреляциях клей-частиц и в глюонных матричных элементах, связанных со структурой адронов, с продемонстрированными вычислительными преимуществами. Наблюдаемое снижение дисперсии оказалось приблизительно независимым от объема решетки, что позволяет использовать перенос объема для минимизации затрат на обучение. Variance reduction Hugging Face Variance reduction PDF Variance reduction ArXiv

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Агенты графического пользовательского интерфейса (GUI), благодаря недавним достижениям в мультимодальных больших языковых моделях (MLLM), достигли значительного развития. Однако из-за частых обновлений GUI-приложений адаптация к новым задачам без забывания старых в непрерывном обучении GUI остается открытой проблемой. Исследователи выявили, что Supervised Fine-Tuning (SFT) облегчает быструю адаптацию, но часто вызывает перезапись знаний, в то время как обучение с подкреплением (RL) демонстрирует внутреннюю устойчивость, защищающую логику предыдущих взаимодействий от стирания. На основе этого понимания предложен фреймворк Continual GUI Learning (CGL), который динамически балансирует эффективность адаптации и сохранение навыков, усиливая синергию между SFT и RL. В частности, представлен механизм корректировки пропорций SFT, управляемый энтропией политики, который динамически контролирует распределение веса между фазами обучения SFT и RL. Для решения явных градиентных помех также разработана специализированная стратегия градиентной хирургии, которая проецирует исследовательские градиенты SFT на GRPO-основанные опорные градиенты, явно обрезая компоненты градиентов SFT, которые конфликтуют с GRPO. CGL Hugging Face CGL PDF CGL ArXiv

MaBERT: Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

Variance reduction in lattice QCD observables via normalizing flows

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Похожие новости

LFM2-24B-A2B: Новая архитектура ИИ для периферийных устройств

Ускорение обучения LLM: новый метод от MIT и NVIDIA

TiMi: Многомодальные Transformer-модели для прогнозирования временных рядов

LM Link: Бесшовная удалённая инференция LLM с помощью Tailscale

Контекстное проектирование LLM: Когда 'помощь' вредит

Обучение llm байесовскому выводу для улучшения рассуждений