multilevel training for kolmogorov arnold networks

5 марта 2026 года была представлена работа 2603.04827, авторы Ben S. Southworth, Jonas A. Actor, Graham Harper и Eric C. Cyr. Авторы утверждают, что ускорение обучения общих нейронных архитектур затруднено из-за отсутствия структуры, гарантированной композициями функций, присущих таким сетям. В отличие от многослойных персептронов (MLP), сети Колмогорова-Арнольда (KAN) обеспечивают больше структуры, расширяя изученные активации в указанном базисе. В работе используется эта структура для разработки практических алгоритмов и теоретических выводов, что приводит к ускорению обучения KAN посредством многоуровневого обучения. Для этого авторы установили эквивалентность между KAN с сплайн-базисными функциями и многоканальными MLP с активациями power ReLU через линейное изменение базиса. Они также проанализировали, как это изменение базиса влияет на геометрию оптимизации на основе градиента относительно сплайн-узлов. Изменение базиса KAN мотивирует многоуровневый подход к обучению, где обучается последовательность KAN, естественно определяемая посредством равномерного уточнения сплайн-узлов с аналитическими геометрическими операторами интерполяции между моделями. Схема интерполяции обеспечивает "правильно вложенную иерархию" архитектур, гарантируя, что интерполяция к тонкой модели сохраняет прогресс, достигнутый на грубых моделях, в то время как компактная поддержка сплайн-базисных функций обеспечивает дополнительную оптимизацию на последующих уровнях. Численные эксперименты демонстрируют, что многоуровневый подход к обучению может достичь увеличения точности в несколько раз по сравнению с традиционными методами обучения сопоставимых KAN или MLP, особенно для нейронных сетей, информированных физикой. View on Hugging Face Read PDF ArXiv

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

5 марта 2026 года была представлена работа 2603.04825, авторы Bin Shi, Kai Sun, Bo Dong и Rui Zhao. В работе рассматривается задача частичного обучения с метками, где каждому обучающему экземпляру присваивается неоднозначный набор кандидатов на метки. В реальных сценариях кандидаты на метки часто находятся под влиянием признаков экземпляра, что приводит к возникновению ID-PLL, который более точно отражает эту взаимосвязь. Значительной проблемой в ID-PLL является запутывание экземпляров, когда экземпляры из похожих классов имеют перекрывающиеся признаки и кандидаты на метки, что приводит к увеличению путаницы классов. Для решения этой проблемы авторы предлагают новый фреймворк Class-specific Augmentation based Disentanglement (CAD), который решает проблему запутывания экземпляров как внутри-, так и междуклассовой регуляризацией. Для внутриклассовой регуляризации CAD усиливает специфические для класса признаки для создания дополнений, специфичных для класса, и выравнивает дополнения одного класса между экземплярами. Для межклассовой регуляризации CAD вводит взвешенную функцию штрафного воздействия, которая применяет более сильные штрафы к более двусмысленным меткам, поощряя увеличение межклассовых расстояний. Совместное применение внутри- и межклассовой регуляризации улучшает четкость границ классов и снижает путаницу классов, вызванную запутыванием. Экспериментальные результаты демонстрируют эффективность CAD в снижении проблемы запутывания и повышении производительности ID-PLL. Код доступен по ссылке https://github.com/RyanZhaoIc/CAD.git. View on Hugging Face Read PDF ArXiv

LLM-Grounded Explainability for Port Congestion Prediction via Temporal Graph Attention Networks

5 марта 2026 года была представлена работа 2603.04818, авторы Yujue Wang и Zhiming Xue. Авторы отмечают, что загруженность портов в основных морских узлах нарушает глобальные цепочки поставок, однако существующие системы прогнозирования, как правило, отдают приоритет точности прогнозирования без предоставления оперативно интерпретируемых объяснений. В работе предлагается AIS-TGNN, основанный на доказательствах фреймворк, который одновременно выполняет прогнозирование эскалации загруженности и создание достоверных объяснений на естественном языке путем объединения Temporal Graph Attention Network (TGAT) со структурированным модулем рассуждений на основе большой языковой модели (LLM). Дневные пространственные графы строятся из трансляций Automatic Identification System (AIS), где каждая ячейка сетки представляет локальную активность судов, а взаимодействие между ячейками моделируется с помощью взвешенного на основе внимания обмена сообщениями. Предиктор TGAT захватывает пространственно-временную динамику загруженности, в то время как внутренняя модельная информация, включая Z-оценки признаков и влияние соседей, полученное на основе внимания, преобразуется в структурированные подсказки, которые ограничивают рассуждения LLM проверяемыми выходными данными модели. Для оценки надежности объяснений введен протокол проверки направленной согласованности, который количественно измеряет согласие между сгенерированными повествованиями и лежащими в основе статистическими данными. Эксперименты с шестимесячными данными AIS из порта Лос-Анджелес и Лонг-Бич показали, что предложенный фреймворк превосходит базовые уровни LR и GCN, достигая AUC в тесте 0.761, AP 0.344 и отзыв 0.504 при строгом хронологическом разделении, одновременно генерируя объяснения с 99.6% направленной согласованностью. View on Hugging Face Read PDF ArXiv

Revisiting Shape from Polarization in the Era of Vision Foundation Models

5 марта 2026 года была представлена работа 2603.04817, авторы Chenhao Li, Taishi Ono, Takeshi Uemori и Yusuke Moriuchi. Авторы показали, что модель с небольшим количеством параметров, обученная на небольшом наборе данных с использованием поляризационных сигналов, может превзойти модели Vision Foundation Models (VFM) на основе RGB при однократном оценивании нормалей поверхности объектов. Shape from polarization (SfP) изучается давно из-за сильной физической связи между поляризацией и геометрией поверхности. В то же время, благодаря законам масштабирования, VFM на основе RGB, обученные на больших наборах данных, недавно достигли впечатляющих результатов и превзошли существующие методы SfP. Это ставит под вопрос необходимость поляризационных сигналов, требующих специализированного оборудования и имеющих ограниченные данные для обучения. Авторы утверждают, что более низкая производительность предыдущих методов SfP не связана с самой поляризационной модальностью, а с расхождениями в доменах. Эти расхождения в основном возникают из-за двух источников: существующие синтетические наборы данных используют ограниченное и нереалистичное количество 3D-объектов с простой геометрией и случайными картами текстур, которые не соответствуют базовым формам и реальные поляризационные сигналы часто подвержены шумам датчиков, которые не моделируются во время обучения. Для решения первой проблемы авторы создали высококачественный набор данных поляризации, используя 1954 отсканированных в реальности 3D-объекта. Они также включили предварительно обученные приоритеты DINOv3 для улучшения обобщения на невиданные объекты. Для решения второй проблемы был введен аугментация данных с учетом поляризационных датчиков, которые лучше отражают реальные условия. Имея только 40 000 обучающих сцен, их метод значительно превосходит современные подходы SfP и VFM на основе RGB. View on Hugging Face Read PDF ArXiv

EchoGuard: An Agentic Framework with Knowledge-Graph Memory for Detecting Manipulative Communication in Longitudinal Dialogue

5 марта 2026 года была представлена работа 2603.04815, авторы Ratna Kandala, Niva Manchanda, Akshata Kishore Moharir и Ananth Kandala. Авторы отмечают, что манипулятивное общение, такое как газлайтинг, чувство вины и эмоциональное принуждение, часто бывает трудно распознать. Существующие агентные системы искусственного интеллекта не имеют структурированной, продольной памяти для отслеживания этих тонких, контекстно-зависимых тактик, часто терпя неудачу из-за ограниченных окон контекста и катастрофического забывания. Авторы представляют EchoGuard, агентный фреймворк искусственного интеллекта, который решает эту проблему, используя Knowledge Graph (KG) в качестве основной эпизодической и семантической памяти агента. EchoGuard использует структурированный цикл Log-Analyze-Reflect: (1) пользователи записывают взаимодействия, которые агент структурирует как узлы и ребра в личном эпизодическом KG (захватывающем события, эмоции и говорящих); (2) система выполняет сложные запросы к графу для обнаружения шести психологически обоснованных моделей манипуляций (хранящихся как семантический KG); и (3) LLM генерирует целевые сократические подсказки, основанные на подграфе обнаруженных моделей, направляя пользователей к самопознанию. View on Hugging Face Read PDF ArXiv

multilevel training for kolmogorov arnold networks