LLM

msjoe: эффективное понимание длинных видео с помощью llm

Heli
Автор
Heli
Опубликовано 27.02.2026
0,0
Views 2

MSJoE — это новый подход к эффективному пониманию длинных видео, который одновременно развивает большую мультимодальную языковую модель (MLLM) и сэмплер. Он направлен на решение проблем, возникающих при обработке длинных видео, таких как вычислительная сложность и необходимость в больших объемах памяти.

Архитектура MSJoE

MSJoE использует совместное развитие MLLM и сэмплера для повышения эффективности. Сэмплер выбирает наиболее информативные кадры из видео, снижая вычислительную нагрузку на MLLM. MLLM, в свою очередь, использует эту информацию для лучшего понимания видеоконтента. Этот процесс происходит итеративно, где MLLM и сэмплер улучшаются друг от друга.

Эксперименты и результаты

Авторы провели эксперименты на различных наборах данных для длинных видео, включая How4, EPIC-Kitchen и длительные версии YouTube-видео. Результаты показали, что MSJoE превосходит существующие методы по нескольким метрикам, таким как точность и скорость. В частности, MSJoE демонстрирует улучшенную производительность при решении задач, требующих понимания долгосрочных зависимостей в видео. Авторы также отмечают, что MSJoE требует меньше вычислительных ресурсов, чем другие подходы.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости