Механистическое отслеживание данных: поиск истоков работы нейросетей

Ученые разработали метод, позволяющий понять, как конкретные элементы больших языковых моделей (LLM) формируются в процессе обучения. Новая технология, названная Mechanistic Data Attribution (MDA), использует так называемые "функции влияния", чтобы определить, какие именно примеры из обучающей выборки сильнее всего повлияли на развитие определенных "интерпретируемых блоков" в нейросети.

Эксперименты на моделях семейства Pythia показали, что целенаправленное изменение обучающих данных — удаление или добавление примеров с высоким "влиянием" — существенно меняет работу этих блоков. Случайные изменения данных при этом не оказывают заметного эффекта. Оказалось, что повторение определённых структурных элементов в данных (например, LaTeX или XML) может ускорять формирование этих блоков.

Интересно, что воздействие на формирование блоков, отвечающих за "индукцию", одновременно улучшает способность модели к обучению "в контексте" (In-Context Learning). Это подтверждает теорию о связи между этими двумя функциями. На основе этих данных также была разработана методика ускорения формирования нужных элементов в нейросети путём добавления новых данных.

НАВИГАЦИЯ

МЕНЮ

Механистическое отслеживание данных: поиск истоков работы нейросетей

Похожие статьи

Что такое параметры в машинном обучении?

Создание AI-агентов с памятью: кратковременной, долговременной и эпизодической