Новая теория для KAN: оптимизация 1/T, обобщение 1/n
Сети Kolmogorov-Arnold (KAN) недавно предложены как более структурированная альтернатива стандартным MLP, при этом теоретическое понимание их динамики обучения, обобщения и приватности оставалось ограниченным. Новое исследование анализирует градиентный спуск (GD) для обучения двухслойных KAN и выводит общие оценки, описывающие динамику обучения, обобщение и полезность в режиме дифференциальной приватности (DP).
Далее авторы рассматривают конкретизацию: логистическая функция потерь при предположении NTK-separable. В этих условиях показано, что полилогарифмическая ширина сети достаточна, чтобы GD достигал скорости оптимизации порядка 1/T и скорости обобщения порядка 1/n, где T - число итераций GD, n - размер выборки.
В приватном режиме исследователи характеризуют уровень шума, необходимый для (ε,δ)-дифференциальной приватности, и получают оценку полезности порядка sqrt(d)/(nε), где d - размерность входа. В тексте работы заявлено, что этот порядок соответствует классическим нижним границам для общих выпуклых липшицевых задач (DP-ERM).
Также делается вывод, что при дифференциальной приватности полилогарифмическая ширина является не только достаточной, но и необходимой, что подчеркивает различие между непубличным режимом (достаточность) и приватным (появляется необходимость).
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru