Механистическое отслеживание данных: поиск истоков работы нейросетей
Ученые разработали метод, позволяющий понять, как конкретные элементы больших языковых моделей (LLM) формируются в процессе обучения. Новая технология, названная Mechanistic Data Attribution (MDA), использует так называемые "функции влияния", чтобы определить, какие именно примеры из обучающей выборки сильнее всего повлияли на развитие определенных "интерпретируемых блоков" в нейросети.
Эксперименты на моделях семейства Pythia показали, что целенаправленное изменение обучающих данных — удаление или добавление примеров с высоким "влиянием" — существенно меняет работу этих блоков. Случайные изменения данных при этом не оказывают заметного эффекта. Оказалось, что повторение определённых структурных элементов в данных (например, LaTeX или XML) может ускорять формирование этих блоков.
Интересно, что воздействие на формирование блоков, отвечающих за "индукцию", одновременно улучшает способность модели к обучению "в контексте" (In-Context Learning). Это подтверждает теорию о связи между этими двумя функциями. На основе этих данных также была разработана методика ускорения формирования нужных элементов в нейросети путём добавления новых данных.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.