msjoe: эффективное понимание длинных видео с помощью llm
MSJoE — это новый подход к эффективному пониманию длинных видео, который одновременно развивает большую мультимодальную языковую модель (MLLM) и сэмплер. Он направлен на решение проблем, возникающих при обработке длинных видео, таких как вычислительная сложность и необходимость в больших объемах памяти.
Архитектура MSJoE
MSJoE использует совместное развитие MLLM и сэмплера для повышения эффективности. Сэмплер выбирает наиболее информативные кадры из видео, снижая вычислительную нагрузку на MLLM. MLLM, в свою очередь, использует эту информацию для лучшего понимания видеоконтента. Этот процесс происходит итеративно, где MLLM и сэмплер улучшаются друг от друга.
Эксперименты и результаты
Авторы провели эксперименты на различных наборах данных для длинных видео, включая How4, EPIC-Kitchen и длительные версии YouTube-видео. Результаты показали, что MSJoE превосходит существующие методы по нескольким метрикам, таким как точность и скорость. В частности, MSJoE демонстрирует улучшенную производительность при решении задач, требующих понимания долгосрочных зависимостей в видео. Авторы также отмечают, что MSJoE требует меньше вычислительных ресурсов, чем другие подходы.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru