Новая теория для KAN: оптимизация 1/T, обобщение 1/n

Сети Kolmogorov-Arnold (KAN) недавно предложены как более структурированная альтернатива стандартным MLP, при этом теоретическое понимание их динамики обучения, обобщения и приватности оставалось ограниченным. Новое исследование анализирует градиентный спуск (GD) для обучения двухслойных KAN и выводит общие оценки, описывающие динамику обучения, обобщение и полезность в режиме дифференциальной приватности (DP).

Далее авторы рассматривают конкретизацию: логистическая функция потерь при предположении NTK-separable. В этих условиях показано, что полилогарифмическая ширина сети достаточна, чтобы GD достигал скорости оптимизации порядка 1/T и скорости обобщения порядка 1/n, где T - число итераций GD, n - размер выборки.

В приватном режиме исследователи характеризуют уровень шума, необходимый для (ε,δ)-дифференциальной приватности, и получают оценку полезности порядка sqrt(d)/(nε), где d - размерность входа. В тексте работы заявлено, что этот порядок соответствует классическим нижним границам для общих выпуклых липшицевых задач (DP-ERM).

Также делается вывод, что при дифференциальной приватности полилогарифмическая ширина является не только достаточной, но и необходимой, что подчеркивает различие между непубличным режимом (достаточность) и приватным (появляется необходимость).

НАВИГАЦИЯ

МЕНЮ

Похожие новости

Исследования в нейросетях: безопасное «забывание», роботы с предсказанием и у

GPT-5.1 от OpenAI: как обновление ноября 2025 меняет conversational AI

Синтетические данные и приватность в AI: риски и методы защиты дифференциальной

Обучение генеративных моделей для создания изображений - новости ИИ

Microsoft представила OrbitalBrain для обучения ИИ в космосе

LingBot-World: новая модель мира для интерактивных симуляций