LingBot-World: новая модель мира для интерактивных симуляций
Разработчики из Robbyant, подразделения Ant Group, представили LingBot-World – масштабную модель мира, способную превращать генерацию видео в интерактивный симулятор для агентов, систем автономного вождения и игр. Система создает управляемые среды с высокой детализацией, реалистичной динамикой и возможностью управления в реальном времени.
В отличие от большинства моделей "текст-в-видео", которые создают короткие и пассивные ролики, LingBot-World воспринимает действия как условие для изменения виртуального мира. Ввод с клавиатуры и мыши, а также движение камеры управляют развитием видеопотока. Модель способна генерировать связные видеоролики до 10 минут, сохраняя при этом стабильную структуру сцены.
Ключевым элементом LingBot-World является унифицированный механизм обработки данных, объединяющий веб-видео, игровые данные и синтетические траектории, созданные в Unreal Engine. Это обеспечивает богатый и разнообразный набор данных для обучения модели, описывающий изменение мира под воздействием действий.
Для ускорения работы была разработана версия LingBot-World-Fast, использующая блочное каузальное внимание и дистилляцию, позволяющая достичь 16 кадров в секунду при разрешении 480p на одном GPU. Модель демонстрирует стабильность и согласованность при длительной генерации, что делает её перспективной для обучения искусственного интеллекта и реконструкции 3D-сцен.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.