Новости ИИ

doge deposition videos taken down after judge order and mockery

Heli
Автор
Heli
Опубликовано 14.03.2026
0,0
Views 101

DOGE Deposition Videos Taken Down After Judge Order and Widespread Mockery

Правительство обратилось к судье с просьбой остановить распространение видеороликов на YouTube, и судья согласился, приказав их немедленно удалить. Видеоролики были размещены на YouTube и вызвали широкое насмешение.

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

12 марта 2026 года была представлена работа EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation. Авторы: Tianwei Xiong, Jun Hao Liew, Zilong Huang, Zhijie Lin, Jiashi Feng и еще один автор. Работа посвящена генерации видео с использованием авторегрессивных моделей и основана на видео токенизаторах, которые сжимают пиксели в дискретные последовательности токенов. EVATok представляет собой framework для создания эффективных и адаптивных видео токенизаторов, которые оценивают оптимальные назначения токенов для каждого видео, чтобы достичь наилучшего баланса между качеством и вычислительными затратами. Исследования показали, что EVATok значительно улучшает эффективность и качество реконструкции видео, а также генерации на основе авторегрессии. В частности, EVATok обеспечивает экономию в среднем на 24.4% в использовании токенов по сравнению с LARP и фиксированной длиной базового уровня. View on Hugging Face Read PDF

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

12 марта 2026 года была представлена работа Video Streaming Thinking (VST). Авторы: Jianzhong Ju, Zhenbo Luo, Jian Luan, Yuliang Liu, Xiang Bai и еще три автора. VST – это новый подход к потоковому пониманию видео, который поддерживает механизм "мышления во время просмотра", активируя рассуждения по входящим видеоклипам во время потоковой передачи. VST состоит из VST-SFT, который адаптирует оффлайн VideoLLM к причинно-следственному потоковому рассуждению, и VST-RL, который обеспечивает улучшение за счет самоисследования в многооборотной среде видеовзаимодействия. Также была разработана автоматическая система синтеза обучающих данных, использующая графы знаний видео для создания пар вопросов и ответов высокого качества для потоковой передачи. VST-7B показал хорошие результаты на онлайн-бенчмарках, например, 79.5% на StreamingBench и 59.3% на OVO-Bench. По сравнению с Video-R1, VST работает в 15.7 раз быстрее и обеспечивает улучшение на 5.4% на VideoHolmes. View on Hugging Face Read PDF

The Latent Color Subspace: Emergent Order in High-Dimensional Chaos

12 марта 2026 года была представлена работа The Latent Color Subspace: Emergent Order in High-Dimensional Chaos. Авторы: Mateusz Pach, Jessica Bader, Quentin Bouniot, Serge Belongie, Zeynep Akata. Работа предлагает интерпретацию цветового представления в латентном пространстве VAE модели FLUX.1, выявляя структуру, отражающую тон, насыщенность и светлоту. Авторы демонстрируют, что эта интерпретация латентного цветового пространства (LCS) может предсказывать и явно контролировать цвет, представляя собой метод, основанный исключительно на манипуляциях в латентном пространстве. View on Hugging Face Read PDF

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

12 марта 2026 года была представлена работа Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing. Авторы: Song Han, Pavlo Molchanov, Hongxu Yin, Stephanie Fu, Long Lian и еще восемь авторов. AutoGaze – это легкий модуль, который удаляет избыточные патчи перед их обработкой ViT или MLLM, обученный с помощью прогнозирования следующего токена и обучения с подкреплением. AutoGaze авторегрессивно выбирает минимальный набор многомасштабных патчей, которые могут реконструировать видео в пределах заданного порога ошибки, устраняя избыточность и сохраняя информацию. AutoGaze снижает количество визуальных токенов в 4-100 раз и ускоряет ViT и MLLM до 19 раз, позволяя масштабировать MLLM до 1K-кадровых 4K-видео и достигать лучших результатов на видеобенчмарках, например, 67.0% на VideoMME. На новом бенчмарке HLVid, AutoGaze улучшает результаты на 10.1% по сравнению с базовым уровнем и опережает предыдущий лучший MLLM на 4.5%. View on Hugging Face Read PDF

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости