leworldmodel: новое решение проблемы коллапса в моделях предсказания

Новое исследование Яна Лекуна (Yann LeCun) и его команды, посвященное LeWorldModel (LeWM), направлено на решение проблемы "коллапса" в моделях, основанных на предсказании пикселей. Эта проблема, также известная как JEPA collapse, возникает при обучении моделей предсказывать будущие кадры видео или изображения.

Исследователи обнаружили, что модели, основанные на предсказании пикселей, могут "коллапсировать", то есть, переставать генерировать осмысленные изображения и вместо этого производить однородные или бессмысленные выходные данные. LeWM пытается решить эту проблему, используя подход, при котором модель не только предсказывает пиксели, но и учится представлять мир в виде дискретных символов или "сущностей".

LeWM использует архитектуру, включающую в себя Variational Autoencoder (VAE) и Transformer. VAE используется для кодирования входного изображения в компактное представление, а Transformer используется для предсказания будущих состояний мира на основе этого представления. Модель обучается путем максимизации вероятности наблюдаемых данных и минимизации расхождения между предсказанными и фактическими состояниями мира.

В статье отмечается, что LeWM демонстрирует улучшенные результаты по сравнению с другими моделями, основанными на предсказании пикселей, в задачах предсказания видео и генерации изображений. Исследователи также подчеркивают, что LeWM может использоваться для обучения агентов, способных взаимодействовать с окружающей средой и решать задачи.

LeWorldModel (LeWM)

Похожие новости

Google лидирует в генерации изображений AI: Nano Banana 2 и другие новости

Исследования в нейросетях: безопасное «забывание», роботы с предсказанием и у

Генеративный ИИ и физика: создание персонализированных объектов

ai research: generative models, unlearning, sim2real transfer

Axios и ИИ в журналистике: оптимизация новостного процесса

Grammarly отменяет «Expert Review» и другие новости AI