Новости ИИ

понимают ли видеомодели, что они видят?

Heli
Автор
Heli
Опубликовано 22.03.2026
0,0
Views 2

Видеомодели, такие как Sora, демонстрируют удивительные возможности, создавая реалистичные и последовательные видео, соблюдающие базовые физические законы. Однако существует пробел в оценке способности этих моделей рассуждать о происходящем в видео. Могут ли они понимать причинно-следственные связи, пространственные отношения и взаимодействие объектов, или же они просто сопоставляют шаблоны в огромном масштабе, воспроизводя визуальную текстуру без понимания структуры?

Различие важно. Модель может создать безупречное видео падающей и разбивающейся чашки, не понимая гравитации, импульса или хрупкости. Она может генерировать пространственно-временные последовательности, рассуждая о них способами, которые потерпят неудачу при малейших отклонениях от ранее увиденного. Исследования в области моделирования видео в настоящее время оптимизируют то, что легко измерить, а не то, что действительно важно.

Проблема в измерении связана с небольшими существующими бенчмарками для рассуждений о видео. Они содержат всего несколько тысяч примеров, охватывающих несколько типов задач и редко превышающих 50 различных задач для рассуждений. Невозможно изучать масштабирование поведения на таких маленьких наборах данных, различать истинное понимание и запоминание шаблонов или отслеживать развитие способностей к рассуждению по мере роста и усложнения моделей. Сейчас создаются все более мощные видеомодели, при этом почти ничего не известно о том, действительно ли они рассуждают о пространственно-временном мире или просто выполняют статистическое сжатие визуальных данных с невероятной точностью.

Прежде чем создавать набор данных, исследователям необходимо задать вопрос: что именно нужно измерять? Большинство существующих видеодатасетов предлагают моделям смешанные задачи, не понимая, какие когнитивные способности активирует каждая задача. Нет фундаментальной теории о том, что на самом деле представляет собой "рассуждение о видео", поэтому нет принципиального способа узнать, измеряете ли вы то, что нужно, или просто гонитесь за самыми высокими баллами по вашей метрике.


Описания цен и основные функции приложения LUX Chatbot отсутствуют в предоставленном тексте.


Описания цен и основные функции приложения SpicyGF Chatbot отсутствуют в предоставленном тексте.


Генеральный директор Krafton использовал ChatGPT, чтобы отстранить руководителя студии, разрабатывающей Subnautica 2, вопреки советам своих юристов, и потерпел неудачу в суде.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости