diffusion-based discrete motion tokenizer

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

19 марта 2026 года был представлен подход, сочетающий семантические и кинематические условия с использованием диффузионного дискретного токенизатора движения. Исследователи разработали трехступенчатый фреймворк, включающий извлечение признаков условий (Восприятие), генерацию дискретных токенов (Планирование) и диффузионный синтез движения (Контроль). Ключевым элементом является MoTok, диффузионный дискретный токенизатор движения, который отделяет семантическую абстракцию от детальной реконструкции. MoTok использует компактные однослойные токены, сохраняя при этом точность движения. Для кинематических условий, грубые ограничения направляют генерацию токенов во время планирования, а детальные ограничения применяются во время контроля посредством диффузионной оптимизации. Это предотвращает влияние кинематических деталей на семантическое планирование токенов. На HumanML3D метод значительно улучшил управляемость и точность по сравнению с MaskControl, используя лишь одну шестую часть токенов, снизив ошибку траектории с 0.72 см до 0.08 см и FID с 0.083 до 0.029. В отличие от предыдущих методов, ухудшающихся при более строгих кинематических ограничениях, предложенный метод повышает точность, снижая FID с 0.033 до 0.014. View on Hugging Face Read PDF

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

19 марта 2026 года был представлен EffectErase, метод совместного удаления и вставки объектов в видео для высококачественного удаления эффектов. Цель метода – устранение динамических объектов и их визуальных эффектов, таких как деформация, тени и отражения, с одновременным восстановлением плавного фона. Для решения проблемы отсутствия комплексного набора данных, систематически отражающего распространенные эффекты объектов в различных средах, был представлен VOR (Video Object Removal) – набор данных, содержащий 60 тысяч высококачественных пар видео, каждая из которых состоит из видео с объектом и его эффектами и видео, где объект и эффекты отсутствуют, с соответствующими масками объектов. VOR охватывает пять типов эффектов и широкий спектр категорий объектов, а также сложные многообъектные сцены. На основе VOR предложен EffectErase, метод удаления объектов с учетом эффектов, рассматривающий вставку объекта в видео как вспомогательную задачу в рамках схемы взаимного обучения. Модель включает в себя руководство по областям с учетом задачи, которое фокусирует обучение на затронутых областях и обеспечивает гибкое переключение задач, а также целевое согласование вставки и удаления, которое поощряет взаимодополняющее поведение и общую локализацию областей эффектов и структурных подсказок. EffectErase показал превосходные результаты в экспериментах, обеспечивая высококачественное удаление эффектов объектов в разнообразных сценариях. View on Hugging Face Read PDF

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

19 марта 2026 года представлен F2LLM-v2, новая семья общих, многоязычных моделей встраивания в 8 различных размерах, от 80 миллионов до 14 миллиардов параметров. Модели обучены на 60 миллионах общедоступных высококачественных данных и поддерживают более 200 языков, с особым акцентом на ранее недостаточно обслуживаемые языки. Интегрируя двухэтапную систему обучения встраиванию на основе LLM с обучением матрешки, обрезкой модели и техниками дистилляции знаний, удалось добиться большей эффективности моделей по сравнению с предыдущими моделями на основе LLM, сохраняя при этом конкурентоспособную производительность. Оценки показали, что F2LLM-v2-14B занимает первое место в 11 MTEB-бенчмарках, а меньшие модели в семье установили новый стандарт для приложений с ограниченными ресурсами. Для содействия исследованиям моделей встраивания с открытым исходным кодом были выпущены все модели, данные, код и промежуточные контрольные точки. View on Hugging Face Read PDF

Spectrally-Guided Diffusion Noise Schedules

19 марта 2026 года был предложен принципиальный способ проектирования индивидуальных расписаний шума для диффузии пикселей, основанный на спектральных свойствах изображения. Исследователи разработали "плотные" расписания шума, устраняющие избыточные шаги, выводя теоретические границы эффективности минимальных и максимальных уровней шума, а также предложили условную выборку таких расписаний во время вывода. Эксперименты показали, что эти расписания улучшают качество генерации одноэтапными диффузионными моделями, особенно при малом количестве шагов. View on Hugging Face Read PDF

Rethinking Vector Field Learning for Generative Segmentation

19 марта 2026 года был рассмотрен подход к диффузионной сегментации с точки зрения обучения векторным полям. Были выявлены две основные проблемы с широко используемым целевым функцией сопоставления потоков: затухание градиента и пересечение траекторий, которые приводят к медленной сходимости и плохой раздельности классов. Для решения этих проблем предложена стратегия переформулирования векторного поля, дополняющая изученное поле скорости отсоединенным коррекционным членом, зависящим от расстояния. Коррекция вводит как притягивающие, так и отталкивающие взаимодействия, усиливая величину градиента вблизи центроидов, сохраняя при этом исходную структуру обучения диффузии. Кроме того, была разработана вычислительно эффективная схема кодирования категорий на основе последовательностей Кронекера, которая интегрируется с пиксельной нейронной сетью для выравнивания семантики на уровне пикселей. Эксперименты показали значительное улучшение по сравнению с традиционным сопоставлением потоков, значительно сокращая разрыв в производительности между генеративной сегментацией и сильными дискриминативными специалистами. View on Hugging Face Read PDF

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Spectrally-Guided Diffusion Noise Schedules

Rethinking Vector Field Learning for Generative Segmentation

Похожие новости

elastic latent interface transformer для диффузионных трансформеров

Новые исследования в области обработки естественного языка (nlp) в 2026 году

multiscale switch для полуконтролируемого обучения сегментации изображений

Axios и ИИ в журналистике: оптимизация новостного процесса

ai research: generative models, unlearning, sim2real transfer

doge deposition videos taken down after judge order and mockery