diffusion-based discrete motion tokenizer
Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer
19 марта 2026 года был представлен подход, сочетающий семантические и кинематические условия с использованием диффузионного дискретного токенизатора движения. Исследователи разработали трехступенчатый фреймворк, включающий извлечение признаков условий (Восприятие), генерацию дискретных токенов (Планирование) и диффузионный синтез движения (Контроль). Ключевым элементом является MoTok, диффузионный дискретный токенизатор движения, который отделяет семантическую абстракцию от детальной реконструкции. MoTok использует компактные однослойные токены, сохраняя при этом точность движения. Для кинематических условий, грубые ограничения направляют генерацию токенов во время планирования, а детальные ограничения применяются во время контроля посредством диффузионной оптимизации. Это предотвращает влияние кинематических деталей на семантическое планирование токенов. На HumanML3D метод значительно улучшил управляемость и точность по сравнению с MaskControl, используя лишь одну шестую часть токенов, снизив ошибку траектории с 0.72 см до 0.08 см и FID с 0.083 до 0.029. В отличие от предыдущих методов, ухудшающихся при более строгих кинематических ограничениях, предложенный метод повышает точность, снижая FID с 0.033 до 0.014. View on Hugging Face Read PDF
EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing
19 марта 2026 года был представлен EffectErase, метод совместного удаления и вставки объектов в видео для высококачественного удаления эффектов. Цель метода – устранение динамических объектов и их визуальных эффектов, таких как деформация, тени и отражения, с одновременным восстановлением плавного фона. Для решения проблемы отсутствия комплексного набора данных, систематически отражающего распространенные эффекты объектов в различных средах, был представлен VOR (Video Object Removal) – набор данных, содержащий 60 тысяч высококачественных пар видео, каждая из которых состоит из видео с объектом и его эффектами и видео, где объект и эффекты отсутствуют, с соответствующими масками объектов. VOR охватывает пять типов эффектов и широкий спектр категорий объектов, а также сложные многообъектные сцены. На основе VOR предложен EffectErase, метод удаления объектов с учетом эффектов, рассматривающий вставку объекта в видео как вспомогательную задачу в рамках схемы взаимного обучения. Модель включает в себя руководство по областям с учетом задачи, которое фокусирует обучение на затронутых областях и обеспечивает гибкое переключение задач, а также целевое согласование вставки и удаления, которое поощряет взаимодополняющее поведение и общую локализацию областей эффектов и структурных подсказок. EffectErase показал превосходные результаты в экспериментах, обеспечивая высококачественное удаление эффектов объектов в разнообразных сценариях. View on Hugging Face Read PDF
F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World
19 марта 2026 года представлен F2LLM-v2, новая семья общих, многоязычных моделей встраивания в 8 различных размерах, от 80 миллионов до 14 миллиардов параметров. Модели обучены на 60 миллионах общедоступных высококачественных данных и поддерживают более 200 языков, с особым акцентом на ранее недостаточно обслуживаемые языки. Интегрируя двухэтапную систему обучения встраиванию на основе LLM с обучением матрешки, обрезкой модели и техниками дистилляции знаний, удалось добиться большей эффективности моделей по сравнению с предыдущими моделями на основе LLM, сохраняя при этом конкурентоспособную производительность. Оценки показали, что F2LLM-v2-14B занимает первое место в 11 MTEB-бенчмарках, а меньшие модели в семье установили новый стандарт для приложений с ограниченными ресурсами. Для содействия исследованиям моделей встраивания с открытым исходным кодом были выпущены все модели, данные, код и промежуточные контрольные точки. View on Hugging Face Read PDF
Spectrally-Guided Diffusion Noise Schedules
19 марта 2026 года был предложен принципиальный способ проектирования индивидуальных расписаний шума для диффузии пикселей, основанный на спектральных свойствах изображения. Исследователи разработали "плотные" расписания шума, устраняющие избыточные шаги, выводя теоретические границы эффективности минимальных и максимальных уровней шума, а также предложили условную выборку таких расписаний во время вывода. Эксперименты показали, что эти расписания улучшают качество генерации одноэтапными диффузионными моделями, особенно при малом количестве шагов. View on Hugging Face Read PDF
Rethinking Vector Field Learning for Generative Segmentation
19 марта 2026 года был рассмотрен подход к диффузионной сегментации с точки зрения обучения векторным полям. Были выявлены две основные проблемы с широко используемым целевым функцией сопоставления потоков: затухание градиента и пересечение траекторий, которые приводят к медленной сходимости и плохой раздельности классов. Для решения этих проблем предложена стратегия переформулирования векторного поля, дополняющая изученное поле скорости отсоединенным коррекционным членом, зависящим от расстояния. Коррекция вводит как притягивающие, так и отталкивающие взаимодействия, усиливая величину градиента вблизи центроидов, сохраняя при этом исходную структуру обучения диффузии. Кроме того, была разработана вычислительно эффективная схема кодирования категорий на основе последовательностей Кронекера, которая интегрируется с пиксельной нейронной сетью для выравнивания семантики на уровне пикселей. Эксперименты показали значительное улучшение по сравнению с традиционным сопоставлением потоков, значительно сокращая разрыв в производительности между генеративной сегментацией и сильными дискриминативными специалистами. View on Hugging Face Read PDF
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru