Новости ИИ

doge deposition videos taken down after judge order and mockery

Heli
Автор
Heli
Опубликовано 14.03.2026
0,0
Views 9

DOGE Deposition Videos Taken Down After Judge Order and Widespread Mockery

Правительство обратилось к судье с просьбой остановить распространение видеороликов на YouTube, и судья согласился, приказав их немедленно удалить. Видеоролики были размещены на YouTube и вызвали широкое насмешение.

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

12 марта 2026 года была представлена работа EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation. Авторы: Tianwei Xiong, Jun Hao Liew, Zilong Huang, Zhijie Lin, Jiashi Feng и еще один автор. Работа посвящена генерации видео с использованием авторегрессивных моделей и основана на видео токенизаторах, которые сжимают пиксели в дискретные последовательности токенов. EVATok представляет собой framework для создания эффективных и адаптивных видео токенизаторов, которые оценивают оптимальные назначения токенов для каждого видео, чтобы достичь наилучшего баланса между качеством и вычислительными затратами. Исследования показали, что EVATok значительно улучшает эффективность и качество реконструкции видео, а также генерации на основе авторегрессии. В частности, EVATok обеспечивает экономию в среднем на 24.4% в использовании токенов по сравнению с LARP и фиксированной длиной базового уровня. View on Hugging Face Read PDF

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

12 марта 2026 года была представлена работа Video Streaming Thinking (VST). Авторы: Jianzhong Ju, Zhenbo Luo, Jian Luan, Yuliang Liu, Xiang Bai и еще три автора. VST – это новый подход к потоковому пониманию видео, который поддерживает механизм "мышления во время просмотра", активируя рассуждения по входящим видеоклипам во время потоковой передачи. VST состоит из VST-SFT, который адаптирует оффлайн VideoLLM к причинно-следственному потоковому рассуждению, и VST-RL, который обеспечивает улучшение за счет самоисследования в многооборотной среде видеовзаимодействия. Также была разработана автоматическая система синтеза обучающих данных, использующая графы знаний видео для создания пар вопросов и ответов высокого качества для потоковой передачи. VST-7B показал хорошие результаты на онлайн-бенчмарках, например, 79.5% на StreamingBench и 59.3% на OVO-Bench. По сравнению с Video-R1, VST работает в 15.7 раз быстрее и обеспечивает улучшение на 5.4% на VideoHolmes. View on Hugging Face Read PDF

The Latent Color Subspace: Emergent Order in High-Dimensional Chaos

12 марта 2026 года была представлена работа The Latent Color Subspace: Emergent Order in High-Dimensional Chaos. Авторы: Mateusz Pach, Jessica Bader, Quentin Bouniot, Serge Belongie, Zeynep Akata. Работа предлагает интерпретацию цветового представления в латентном пространстве VAE модели FLUX.1, выявляя структуру, отражающую тон, насыщенность и светлоту. Авторы демонстрируют, что эта интерпретация латентного цветового пространства (LCS) может предсказывать и явно контролировать цвет, представляя собой метод, основанный исключительно на манипуляциях в латентном пространстве. View on Hugging Face Read PDF

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

12 марта 2026 года была представлена работа Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing. Авторы: Song Han, Pavlo Molchanov, Hongxu Yin, Stephanie Fu, Long Lian и еще восемь авторов. AutoGaze – это легкий модуль, который удаляет избыточные патчи перед их обработкой ViT или MLLM, обученный с помощью прогнозирования следующего токена и обучения с подкреплением. AutoGaze авторегрессивно выбирает минимальный набор многомасштабных патчей, которые могут реконструировать видео в пределах заданного порога ошибки, устраняя избыточность и сохраняя информацию. AutoGaze снижает количество визуальных токенов в 4-100 раз и ускоряет ViT и MLLM до 19 раз, позволяя масштабировать MLLM до 1K-кадровых 4K-видео и достигать лучших результатов на видеобенчмарках, например, 67.0% на VideoMME. На новом бенчмарке HLVid, AutoGaze улучшает результаты на 10.1% по сравнению с базовым уровнем и опережает предыдущий лучший MLLM на 4.5%. View on Hugging Face Read PDF

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости