понимают ли видеомодели, что они видят?
Видеомодели, такие как Sora, демонстрируют удивительные возможности, создавая реалистичные и последовательные видео, соблюдающие базовые физические законы. Однако существует пробел в оценке способности этих моделей рассуждать о происходящем в видео. Могут ли они понимать причинно-следственные связи, пространственные отношения и взаимодействие объектов, или же они просто сопоставляют шаблоны в огромном масштабе, воспроизводя визуальную текстуру без понимания структуры?
Различие важно. Модель может создать безупречное видео падающей и разбивающейся чашки, не понимая гравитации, импульса или хрупкости. Она может генерировать пространственно-временные последовательности, рассуждая о них способами, которые потерпят неудачу при малейших отклонениях от ранее увиденного. Исследования в области моделирования видео в настоящее время оптимизируют то, что легко измерить, а не то, что действительно важно.
Проблема в измерении связана с небольшими существующими бенчмарками для рассуждений о видео. Они содержат всего несколько тысяч примеров, охватывающих несколько типов задач и редко превышающих 50 различных задач для рассуждений. Невозможно изучать масштабирование поведения на таких маленьких наборах данных, различать истинное понимание и запоминание шаблонов или отслеживать развитие способностей к рассуждению по мере роста и усложнения моделей. Сейчас создаются все более мощные видеомодели, при этом почти ничего не известно о том, действительно ли они рассуждают о пространственно-временном мире или просто выполняют статистическое сжатие визуальных данных с невероятной точностью.
Прежде чем создавать набор данных, исследователям необходимо задать вопрос: что именно нужно измерять? Большинство существующих видеодатасетов предлагают моделям смешанные задачи, не понимая, какие когнитивные способности активирует каждая задача. Нет фундаментальной теории о том, что на самом деле представляет собой "рассуждение о видео", поэтому нет принципиального способа узнать, измеряете ли вы то, что нужно, или просто гонитесь за самыми высокими баллами по вашей метрике.
Описания цен и основные функции приложения LUX Chatbot отсутствуют в предоставленном тексте.
Описания цен и основные функции приложения SpicyGF Chatbot отсутствуют в предоставленном тексте.
Генеральный директор Krafton использовал ChatGPT, чтобы отстранить руководителя студии, разрабатывающей Subnautica 2, вопреки советам своих юристов, и потерпел неудачу в суде.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru