MovieTeller: Автоматическое суммирование фильмов с помощью LLM

Авторы: Вэнтао Танг, Гаоанг Ванг, Ичжи Ли, Сяохань Чен, Мяо Цзян.

Абстракт В связи с бурным ростом цифровых развлечений, автоматическое суммирование видео стало незаменимым для таких приложений, как индексация контента, персонализированные рекомендации и эффективное архивирование медиафайлов. Автоматическое создание синопсисов для длинных видео, таких как фильмы и сериалы, представляет значительную задачу для существующих Визуально-Языковых Моделей (VLMs).

Несмотря на то, что они хорошо справляются с описанием отдельных изображений, эти универсальные модели часто демонстрируют критические сбои в контексте долгой продолжительности, в первую очередь из-за отсутствия последовательной идентификации персонажей и фрагментированной связности повествования. Для преодоления этих ограничений предлагается MovieTeller — новый фреймворк для создания синопсисов фильмов с помощью прогрессивной абстракции, дополненной инструментами.

Основным вкладом является обучающий, основанный на инструментах и фактах процесс генерации. Вместо того, чтобы требовать дорогостоящей дообучающей тонкой настройки модели, фреймворк напрямую использует готовые модели в подключаемом режиме.

Сначала вызывается специализированная модель распознавания лиц в качестве внешнего "инструмента" для установления фактических оснований — точных идентификаторов персонажей и соответствующих ограничивающих прямоугольников. Затем эти основания вводятся в запрос, чтобы направить рассуждения VLM, гарантируя, что сгенерированные описания сцен привязаны к проверяемым фактам.

Кроме того, конвейер прогрессивной абстракции разлагает суммирование полнометражного фильма на многоэтапный процесс, эффективно смягчая ограничения по длине контекста текущих VLMs. Эксперименты показали, что подход обеспечивает значительное улучшение фактической точности, согласованности персонажей и общей связности повествования по сравнению с базовыми показателями типа "end-to-end".

Ресурсы Просмотреть на Hugging Face Читать PDF ArXiv

НАВИГАЦИЯ

МЕНЮ

Похожие новости

msjoe: эффективное понимание длинных видео с помощью llm

Смесь Экспертов (MoE) в Трансформерах: Масштабирование и Эффективность

Ускорение обучения LLM: новый метод от MIT и NVIDIA

Контекстное проектирование LLM: Когда 'помощь' вредит

автоматическое проектирование эвристик cvrp с помощью llm

Универсальная Структура Для Безопасного RLHF