AI News: SkeletonLLM, AgentFactory & Lost Models

Universal Skeleton Understanding via Differentiable Rendering and MLLMs

18 марта 2026 года представлена работа Mengyuan Liu, Ziyi Wang, Peiming Li, Xinshun Wang, Yang Tang и ещё одного автора, посвященная универсальному пониманию скелетов. Мультимодальные большие языковые модели (MLLM) демонстрируют сильное визуально-языковое рассуждение, но ограничены своими родными модальностями и не могут напрямую обрабатывать структурированные, не визуальные данные, такие как человеческие скелеты. Разработана SkeletonLLM, которая переводит произвольные последовательности скелетов в родную визуальную модальность MLLM. В основе лежит DrAction, дифференцируемый рендерер, который преобразует кинематику скелета в компактные последовательности изображений. Градиенты MLLM напрямую управляют рендерингом для создания информативных визуальных токенов. Для повышения возможностей рассуждения используется стратегия совместного обучения: Causal Reasoning Distillation переносит структурированное, пошаговое рассуждение от модели-учителя, а Discriminative Finetuning уточняет границы принятия решений между сбивающими с толку действиями. SkeletonLLM демонстрирует сильную обобщающую способность в различных задачах, включая распознавание, создание подписей, рассуждение и кросс-форматный перенос. SkeletonLLM на Hugging Face PDF.

AgentFactory: A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse

18 марта 2026 года Zhang Zhang, Shuqi Lu, Hongjin Qian, Di He, Zheng Liu представили AgentFactory — самоэволюционирующую систему, основанную на накоплении и повторном использовании исполняемых суб-агентов. В отличие от существующих подходов, сохраняющих успешные решения как текстовые подсказки, AgentFactory сохраняет успешные решения как исполняемый код суб-агентов. Эти суб-агенты постоянно совершенствуются на основе обратной связи при выполнении, становясь всё более надёжными и эффективными. Сохранённые суб-агенты написаны на чистом Python с документированием, что обеспечивает их переносимость. AgentFactory обеспечивает непрерывное накопление возможностей, когда библиотека исполняемых суб-агентов растёт и улучшается. Реализация доступна по адресу https://github.com/zzatpku/AgentFactory, демонстрационное видео — https://youtu.be/iKSsuAXJHW0. AgentFactory на Hugging Face PDF.

LoST: Level of Semantics Tokenization for 3D Shapes

18 марта 2026 года Chun-Hao Paul Huang, Duygu Ceylan, Niloy J. Mitra, Xuelin Chen, Niladri Shekhar Dutt и два других автора предложили Level-of-Semantics Tokenization (LoST) — токенизацию 3D-форм по уровню семантики. LoST упорядочивает токены по семантической значимости, так что начальные префиксы декодируются в полные, правдоподобные формы, обладающие основными семантическими характеристиками, а последующие токены уточняют детали геометрии и семантики. Для обучения LoST представлен Relational Inter-Distance Alignment (RIDA), новый 3D семантический выравнивающий loss, который выравнивает реляционную структуру латентного пространства 3D-формы с пространством признаков DINO. LoST превосходит предыдущие методы токенизации 3D-форм по точности реконструкции, достигая высокого качества генерации и позволяя выполнять такие задачи, как семантический поиск, используя лишь 0.1%-10% токенов, необходимых предыдущим AR-моделям. LoST на Hugging Face PDF.

Universal Skeleton Understanding via Differentiable Rendering and MLLMs

AgentFactory: A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse

LoST: Level of Semantics Tokenization for 3D Shapes

Похожие новости

multilevel training for kolmogorov arnold networks

Ансамблирование языковых моделей и новые подходы к har

Адаптивное прототипное интерпретируемое градирование рака простаты

Ускорение обучения LLM: новый метод от MIT и NVIDIA

Исследование MIT: рейтинги больших языковых моделей могут быть нестабильными

genesis ai vivian sun to advance commercialization