recent advances in ai research: iha, ttt & squint
Interleaved Head Attention
Multi-Head Attention (MHA) является основной вычислительной операцией, лежащей в основе современных больших языковых моделей (LLM). Однако MHA страдает от фундаментального ограничения линейного масштабирования: $H$ attention heads производят ровно $H$ независимых attention matrices, без взаимодействия между heads во время вычисления attention. Это становится проблематичным для многошагового рассуждения, где правильные ответы зависят от агрегирования доказательств из различных частей контекста и составления латентных токен-к-токен отношений по цепочке промежуточных выводов. Чтобы решить эту проблему, предлагается Interleaved Head Attention (IHA), который обеспечивает меж-head смешивание, создавая $P$ псевдо-heads на head (обычно $P=H$), где каждая псевдо-запрос/ключ/значение является обучаемой линейной комбинацией всех $H$ исходных запросов, ключей и значений соответственно. Взаимодействия между псевдо-запросом и псевдо-ключом индуцируют до $P^2$ шаблонов attention на head с умеренными накладными расходами на параметры $\mathcal{O}(H^2P)$. Теоретически показана улучшенная эффективность с точки зрения количества параметров на синтетической задаче Polynomial (IHA использует $Θ(\sqrt{k}n^2)$ параметров против $Θ(kn^2)$ для MHA) и на синтетической задаче CPM-3, чувствительной к порядку (IHA использует $\lceil\sqrt{N_{\max}}\rceil$ heads против $N_{\max}$ для MHA). На реальных бенчмарках IHA улучшает Multi-Key retrieval на RULER на 10-20% (4k-16k) и, после тонкой настройки для рассуждения на OpenThoughts, улучшает GSM8K на 5.8% и MATH-500 на 2.8% (Majority Vote) по сравнению с full attention. Interleaved Head Attention на Hugging Face PDF
Test-Time Training with KV Binding Is Secretly Linear Attention
Test-time training (TTT) с KV binding в качестве слоя модели последовательности обычно интерпретируется как форма онлайн мета-обучения, которая запоминает отображение ключ-значение во время тестирования. Однако анализ показывает несколько явлений, противоречащих этой интерпретации, основанной на запоминании. Исходя из этих результатов, авторы пересматривают формулировку TTT и показывают, что широкий класс архитектур TTT может быть выражен как форма обученного оператора линейного attention. Помимо объяснения ранее вызывающего недоумение поведения модели, эта перспектива дает несколько практических преимуществ: она позволяет упростить архитектуру, допускает полностью параллельные формулировки, которые сохраняют производительность, одновременно повышая эффективность, и обеспечивает систематическое сокращение различных вариантов TTT до стандартной формы линейного attention. В целом, результаты переформулируют TTT не как запоминание во время тестирования, а как обученный линейный attention с расширенной репрезентационной емкостью.
Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics
Squint — это метод визуального Soft Actor Critic, который обеспечивает более быстрое обучение по сравнению с предыдущими визуальными off-policy и on-policy методами. Squint достигает этого за счет параллельного моделирования, распределенного критика, снижения разрешения (resolution squinting), нормализации слоев, настроенного соотношения обновления к данным и оптимизированной реализации. Политики обучаются в течение 15 минут на одном GPU RTX 3090, при этом большинство задач сходятся менее чем за 6 минут. Оценивается на SO-101 Task Set, новом наборе из восьми задач манипулирования в ManiSkill3 с сильной домейн-рандомизацией, и демонстрируется перенос из симуляции на реальный робот SO-101. Squint на Hugging Face PDF
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru