elastic latent interface transformer для диффузионных трансформеров

Один подход, множество бюджетов: эластичные латентные интерфейсы для диффузионных трансформеров

12 марта 2026 года представлен Elastic Latent Interface Transformer (ELIT), механизм, совместимый с DiT, который отвязывает размер входного изображения от вычислительных затрат. ELIT вставляет латентный интерфейс, обучаемую последовательность токенов переменной длины, на которой работают стандартные блоки трансформеров. Слои кросс-внимания Read и Write перемещают информацию между пространственными токенами и латентами и приоритезируют важные области входного изображения. ELIT обучен с использованием случайного удаления конечных латентов и производит представления, в которых более ранние латенты захватывают глобальную структуру, а более поздние содержат информацию для детализации. Количество латентов может динамически корректироваться в зависимости от вычислительных ограничений. ELIT добавляет два слоя кросс-внимания, оставляя нетронутыми целевую функцию и стек DiT. ELIT обеспечивает стабильный прирост производительности на различных датасетах и архитектурах (DiT, U-ViT, HDiT, MM-DiT), увеличивая FID и FDD оценки на ImageNet-1K 512px в среднем на 35.3% и 39.6% соответственно. https://snap-research.github.io/elit/ Ресурсы на Hugging Face PDF

Временная выпрямление для латентного планирования

12 марта 2026 года было предложено временное выпрямление для улучшения обучения представлений для латентного планирования. Используя регуляризатор кривизны, который способствует локально выпрямленным латентным траекториям, совместно обучаются энкодер и предиктор. Снижение кривизны делает евклидово расстояние в латентном пространстве лучшим приближением к геодезическому расстоянию и улучшает обусловленность целевой функции планирования. Экспериментально доказано, что временное выпрямление делает градиентное планирование более стабильным и значительно повышает процент успешных результатов в ряде задач достижения целей. Ресурсы на Hugging Face PDF

Портфель стратегий решения в CEGAR-основанном размещении и планировании объектов для последовательной 3D-печати

12 марта 2026 года представлена Portfolio-CEGAR-SEQ, параллельная реализация алгоритма CEGAR-SEQ для решения сложной комбинаторной проблемы размещения и планирования объектов для последовательной 3D-печати. Параллелизация выполняется на высоком уровне с использованием портфеля стратегий размещения объектов, таких как размещение объектов к центру или углу печатной пластины и планирование объектов по высоте. Экспериментальная оценка показывает, что Portfolio-CEGAR-SEQ превосходит оригинальный CEGAR-SEQ, часто используя меньше печатных пластин для пакета объектов. Ресурсы на Hugging Face PDF

WORKSWORLD: домен для интегрированного числового планирования и планирования распределенных конвейерных рабочих процессов

12 марта 2026 года разработан WORKSWORLD, новый домен для числовых планировщиков, предназначенный для постоянно запланированных рабочих процессов. Платформа позволяет пользователям определять источники данных, доступные компоненты рабочего процесса и желаемые форматы данных без явного определения всего графа рабочего процесса как цели. Планировщик решает совместную проблему планирования и планирования, создавая план, который строит граф рабочего процесса и планирует его компоненты на графе ресурсов. Экспериментально доказано, что современный численный планировщик, работающий на обычном оборудовании, может решить линейно-цепные рабочие процессы, состоящие из 14 компонентов на восьми сайтах за час процессорного времени и 30 ГБ памяти. Ресурсы на Hugging Face PDF

O3N: всенаправленное предсказание занятости открытой лексикой

12 марта 2026 года представлен O3N, первый полностью визуальный, сквозной фреймворк для всенаправленного предсказания занятости открытой лексикой. O3N встраивает всенаправленные воксели в полярно-спиральную топологию с помощью модуля Polar-spiral Mamba (PsM), обеспечивая непрерывное пространственное представление и моделирование дальнего контекста. Модуль агрегации стоимости занятости (OCA) вводит принципиальный механизм для объединения геометрического и семантического надзора в воксельном пространстве. Модуль выравнивания естественной модальности (NMA) устанавливает градиентно-свободный путь выравнивания, который гармонизирует визуальные признаки, встраивания вокселей и семантику текста. Эксперименты показывают, что O3N превосходит существующие методы на QuadOcc и Human360Occ и демонстрирует замечательную кросс-сценную обобщаемость и семантическую масштабируемость. https://github.com/MengfeiD/O3N Ресурсы на Hugging Face PDF

Один подход, множество бюджетов: эластичные латентные интерфейсы для диффузионных трансформеров

Временная выпрямление для латентного планирования

Портфель стратегий решения в CEGAR-основанном размещении и планировании объектов для последовательной 3D-печати

WORKSWORLD: домен для интегрированного числового планирования и планирования распределенных конвейерных рабочих процессов

O3N: всенаправленное предсказание занятости открытой лексикой

Похожие новости

recent ai research: logi-par, sparse-bitnet, c2-faith & more

timer-s1: модель для временных рядов

doge deposition videos taken down after judge order and mockery

ai agent modeling as personas and beyond

AI Research: K-Gen, Risk Screening, SCoUT & Data Bias

Automation Anywhere, EvolutIA Launch Enterprise AI Agents & More