Неэффективность глубины в языковых моделях белков
Языковые модели белков (PLM) получили широкое распространение в качестве универсальных инструментов, демонстрируя высокую эффективность в разработке и создании белков с нуля. Подобно большим языковым моделям (LLM), они обычно представляют собой глубокие трансформеры, обученные с использованием задач предсказания следующего или маскированного токена на огромных корпусах последовательностей. Масштабирование моделей достигается за счет увеличения глубины.
Глубина и эффективность: есть ли связь?
Недавние исследования авторегрессивных LLM выявили так называемый "проклятие глубины" – поздние слои вносят незначительный вклад в окончательные прогнозы. Это закономерно поднимает вопрос о том, наблюдается ли аналогичная неэффективность глубины и в PLM, где многие широко используемые модели не являются авторегрессивными, а некоторые даже мультимодальны, принимая на вход как последовательность аминокислот, так и структуру белка.
Исследование глубины различных моделей
В данной работе проведен анализ глубины шести популярных PLM, охватывающих различные семейства и масштабы моделей, а также три типа задач обучения: авторегрессивное, маскированное и диффузионное. С помощью унифицированного набора методов зондирования и возмущения была количественно оценена эволюция вклада каждого слоя с увеличением глубины.
Результаты и выводы
Во всех исследованных моделях наблюдаются согласованные паттерны, зависящие от глубины, которые подтверждают более ранние выводы об LLM. Поздние слои меньше зависят от вычислений, выполненных на более ранних этапах, и в основном уточняют окончательное распределение результатов. Эти эффекты становятся все более выраженными в более глубоких моделях.
Полученные результаты указывают на то, что PLM демонстрируют форму неэффективности глубины. Это стимулирует дальнейшие исследования в области создания более эффективных по глубине архитектур и методов обучения.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru