AI news

Новая теория для KAN: оптимизация 1/T, обобщение 1/n

Heli
Автор
Heli
Опубликовано 02.02.2026
0,0
Views 38

Сети Kolmogorov-Arnold (KAN) недавно предложены как более структурированная альтернатива стандартным MLP, при этом теоретическое понимание их динамики обучения, обобщения и приватности оставалось ограниченным. Новое исследование анализирует градиентный спуск (GD) для обучения двухслойных KAN и выводит общие оценки, описывающие динамику обучения, обобщение и полезность в режиме дифференциальной приватности (DP).

Далее авторы рассматривают конкретизацию: логистическая функция потерь при предположении NTK-separable. В этих условиях показано, что полилогарифмическая ширина сети достаточна, чтобы GD достигал скорости оптимизации порядка 1/T и скорости обобщения порядка 1/n, где T - число итераций GD, n - размер выборки.

В приватном режиме исследователи характеризуют уровень шума, необходимый для (ε,δ)-дифференциальной приватности, и получают оценку полезности порядка sqrt(d)/(nε), где d - размерность входа. В тексте работы заявлено, что этот порядок соответствует классическим нижним границам для общих выпуклых липшицевых задач (DP-ERM).

Также делается вывод, что при дифференциальной приватности полилогарифмическая ширина является не только достаточной, но и необходимой, что подчеркивает различие между непубличным режимом (достаточность) и приватным (появляется необходимость).

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости