Моделирование мира в пространстве условий для генерации действий
Генерация действий часто рассматривается как задача предсказания последовательности токенов, где модель учится предсказывать следующее действие, учитывая историю предыдущих действий и наблюдаемое состояние среды. Однако этот подход имеет ограничения, поскольку он неявно предполагает, что все соответствующие знания о мире закодированы в параметрах модели или в наблюдаемом состоянии.
Чтобы решить эту проблему, предлагается концепция «моделирования мира в пространстве условий». Вместо прямого предсказания действий, модель учится прогнозировать изменения в скрытом представлении «условия», которое улавливает соответствующую информацию о мире. Это позволяет модели рассуждать о последствиях действий и планировать более эффективно.
В предложенном подходе, пространство условий представлено как набор векторов, каждый из которых соответствует определенному состоянию мира. Модель обучается отображать наблюдаемое состояние и действие в новое состояние условия. Это достигается путем обучения «модели мира», которая принимает текущее состояние условия и действие в качестве входных данных и прогнозирует следующее состояние условия.
Для улучшения качества модели мира, используется техника, называемая «условным вариационным автоэнкодером» (CVAE). CVAE позволяет модели учиться генерировать состояния условия, которые соответствуют наблюдаемым состояниям мира, а также прогнозировать будущие состояния условия, учитывая действие.
Авторы отмечают, что предложенный подход может быть применен к различным задачам, таким как робототехника и навигация. В экспериментах на симуляторе робота, модель, использующая моделирование мира в пространстве условий, превзошла другие методы генерации действий. arxiv.org
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru