понимают ли видеомодели, что они видят?

Видеомодели, такие как Sora, демонстрируют удивительные возможности, создавая реалистичные и последовательные видео, соблюдающие базовые физические законы. Однако существует пробел в оценке способности этих моделей рассуждать о происходящем в видео. Могут ли они понимать причинно-следственные связи, пространственные отношения и взаимодействие объектов, или же они просто сопоставляют шаблоны в огромном масштабе, воспроизводя визуальную текстуру без понимания структуры?

Различие важно. Модель может создать безупречное видео падающей и разбивающейся чашки, не понимая гравитации, импульса или хрупкости. Она может генерировать пространственно-временные последовательности, рассуждая о них способами, которые потерпят неудачу при малейших отклонениях от ранее увиденного. Исследования в области моделирования видео в настоящее время оптимизируют то, что легко измерить, а не то, что действительно важно.

Проблема в измерении связана с небольшими существующими бенчмарками для рассуждений о видео. Они содержат всего несколько тысяч примеров, охватывающих несколько типов задач и редко превышающих 50 различных задач для рассуждений. Невозможно изучать масштабирование поведения на таких маленьких наборах данных, различать истинное понимание и запоминание шаблонов или отслеживать развитие способностей к рассуждению по мере роста и усложнения моделей. Сейчас создаются все более мощные видеомодели, при этом почти ничего не известно о том, действительно ли они рассуждают о пространственно-временном мире или просто выполняют статистическое сжатие визуальных данных с невероятной точностью.

Прежде чем создавать набор данных, исследователям необходимо задать вопрос: что именно нужно измерять? Большинство существующих видеодатасетов предлагают моделям смешанные задачи, не понимая, какие когнитивные способности активирует каждая задача. Нет фундаментальной теории о том, что на самом деле представляет собой "рассуждение о видео", поэтому нет принципиального способа узнать, измеряете ли вы то, что нужно, или просто гонитесь за самыми высокими баллами по вашей метрике.

Описания цен и основные функции приложения LUX Chatbot отсутствуют в предоставленном тексте.

Описания цен и основные функции приложения SpicyGF Chatbot отсутствуют в предоставленном тексте.

Генеральный директор Krafton использовал ChatGPT, чтобы отстранить руководителя студии, разрабатывающей Subnautica 2, вопреки советам своих юристов, и потерпел неудачу в суде.

Похожие новости

utonia: к единому энкодеру для всех облаков точек

mymnist: бенчмарк petnn, kan и классических моделей для распознавания цифр

ai research: generative models, unlearning, sim2real transfer

Генеративный ИИ и физика: создание персонализированных объектов

multiscale switch для полуконтролируемого обучения сегментации изображений

GPT-5.1 от OpenAI: как обновление ноября 2025 меняет conversational AI