Синтетические данные и приватность в AI: риски и методы защиты дифференциальной
Создание искусственных табличных данных с помощью машинного обучения становится популярным способом повысить конфиденциальность при обмене данными. Однако даже после обработки чувствительной личной информации, публикация обученных моделей или сгенерированных наборов данных все еще может нести риски для приватности.
Новые исследования показывают, что оценка анонимности часто ограничивается анализом отдельных наборов данных, не учитывая возможности и характеристики самой генеративной модели. Это не соответствует реальным сценариям, где обученные модели часто доступны для взаимодействия. Авторы утверждают, что для обеспечения достаточной анонимизации недостаточно полагаться только на методы создания синтетических данных.
В работе рассматриваются такие механизмы защиты, как дифференциальная приватность и метрики приватности на основе схожести. Вывод: дифференциальная приватность обеспечивает надежную защиту, в то время как метрики на основе схожести не гарантируют достаточной безопасности. Исследование призвано помочь исследователям, практикам и законодателям более ответственно оценивать системы на основе синтетических данных.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.