Неэффективность глубины в языковых моделях белков

Языковые модели белков (PLM) получили широкое распространение в качестве универсальных инструментов, демонстрируя высокую эффективность в разработке и создании белков с нуля. Подобно большим языковым моделям (LLM), они обычно представляют собой глубокие трансформеры, обученные с использованием задач предсказания следующего или маскированного токена на огромных корпусах последовательностей. Масштабирование моделей достигается за счет увеличения глубины.

Глубина и эффективность: есть ли связь?

Недавние исследования авторегрессивных LLM выявили так называемый "проклятие глубины" – поздние слои вносят незначительный вклад в окончательные прогнозы. Это закономерно поднимает вопрос о том, наблюдается ли аналогичная неэффективность глубины и в PLM, где многие широко используемые модели не являются авторегрессивными, а некоторые даже мультимодальны, принимая на вход как последовательность аминокислот, так и структуру белка.

Исследование глубины различных моделей

В данной работе проведен анализ глубины шести популярных PLM, охватывающих различные семейства и масштабы моделей, а также три типа задач обучения: авторегрессивное, маскированное и диффузионное. С помощью унифицированного набора методов зондирования и возмущения была количественно оценена эволюция вклада каждого слоя с увеличением глубины.

Результаты и выводы

Во всех исследованных моделях наблюдаются согласованные паттерны, зависящие от глубины, которые подтверждают более ранние выводы об LLM. Поздние слои меньше зависят от вычислений, выполненных на более ранних этапах, и в основном уточняют окончательное распределение результатов. Эти эффекты становятся все более выраженными в более глубоких моделях.

Полученные результаты указывают на то, что PLM демонстрируют форму неэффективности глубины. Это стимулирует дальнейшие исследования в области создания более эффективных по глубине архитектур и методов обучения.

Глубина и эффективность: есть ли связь?

Исследование глубины различных моделей

Результаты и выводы

Похожие новости

Разработка программного обеспечения для подводных роботов и ещё 4 новости

Генерация изображений с Diffusers от Hugging Face и ещё 2 новости

GeoDiv: Оценка Географического Разнообразия в Моделях Текст-Изображение

Unsloth + RTX 5090: дообучаем нейросети локально без облака

Motif-2 победила GPT-5.1: 4 секрета обучения LLM

Data Lake, Data Warehouse, Lakehouse, Data Mesh: Выбор архитектуры