LLM

AI News: SkeletonLLM, AgentFactory & Lost Models

Heli
Автор
Heli
Опубликовано 21.03.2026
0,0
Views 63

Universal Skeleton Understanding via Differentiable Rendering and MLLMs

18 марта 2026 года представлена работа Mengyuan Liu, Ziyi Wang, Peiming Li, Xinshun Wang, Yang Tang и ещё одного автора, посвященная универсальному пониманию скелетов. Мультимодальные большие языковые модели (MLLM) демонстрируют сильное визуально-языковое рассуждение, но ограничены своими родными модальностями и не могут напрямую обрабатывать структурированные, не визуальные данные, такие как человеческие скелеты. Разработана SkeletonLLM, которая переводит произвольные последовательности скелетов в родную визуальную модальность MLLM. В основе лежит DrAction, дифференцируемый рендерер, который преобразует кинематику скелета в компактные последовательности изображений. Градиенты MLLM напрямую управляют рендерингом для создания информативных визуальных токенов. Для повышения возможностей рассуждения используется стратегия совместного обучения: Causal Reasoning Distillation переносит структурированное, пошаговое рассуждение от модели-учителя, а Discriminative Finetuning уточняет границы принятия решений между сбивающими с толку действиями. SkeletonLLM демонстрирует сильную обобщающую способность в различных задачах, включая распознавание, создание подписей, рассуждение и кросс-форматный перенос. SkeletonLLM на Hugging Face PDF.

AgentFactory: A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse

18 марта 2026 года Zhang Zhang, Shuqi Lu, Hongjin Qian, Di He, Zheng Liu представили AgentFactory — самоэволюционирующую систему, основанную на накоплении и повторном использовании исполняемых суб-агентов. В отличие от существующих подходов, сохраняющих успешные решения как текстовые подсказки, AgentFactory сохраняет успешные решения как исполняемый код суб-агентов. Эти суб-агенты постоянно совершенствуются на основе обратной связи при выполнении, становясь всё более надёжными и эффективными. Сохранённые суб-агенты написаны на чистом Python с документированием, что обеспечивает их переносимость. AgentFactory обеспечивает непрерывное накопление возможностей, когда библиотека исполняемых суб-агентов растёт и улучшается. Реализация доступна по адресу https://github.com/zzatpku/AgentFactory, демонстрационное видео — https://youtu.be/iKSsuAXJHW0. AgentFactory на Hugging Face PDF.

LoST: Level of Semantics Tokenization for 3D Shapes

18 марта 2026 года Chun-Hao Paul Huang, Duygu Ceylan, Niloy J. Mitra, Xuelin Chen, Niladri Shekhar Dutt и два других автора предложили Level-of-Semantics Tokenization (LoST) — токенизацию 3D-форм по уровню семантики. LoST упорядочивает токены по семантической значимости, так что начальные префиксы декодируются в полные, правдоподобные формы, обладающие основными семантическими характеристиками, а последующие токены уточняют детали геометрии и семантики. Для обучения LoST представлен Relational Inter-Distance Alignment (RIDA), новый 3D семантический выравнивающий loss, который выравнивает реляционную структуру латентного пространства 3D-формы с пространством признаков DINO. LoST превосходит предыдущие методы токенизации 3D-форм по точности реконструкции, достигая высокого качества генерации и позволяя выполнять такие задачи, как семантический поиск, используя лишь 0.1%-10% токенов, необходимых предыдущим AR-моделям. LoST на Hugging Face PDF.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости