Ama-bench: новая платформа для оценки долговременной памяти агентов
AMA-Bench – это новая платформа для оценки долговременной памяти для агентских приложений. Она состоит из пяти сложных бенчмарков, охватывающих различные сценарии, такие как информационный поиск, ответы на вопросы, планирование и креативное письмо. Каждый бенчмарк требует от агента взаимодействия с внешними инструментами, такими как поисковые системы и API, для выполнения задач, требующих сохранения и извлечения информации на протяжении длительного времени.
Дизайн и особенности
AMA-Bench разработан для преодоления ограничений существующих бенчмарков, которые часто не отражают сложность реальных агентских приложений. Платформа включает в себя как автоматические, так и основанные на оценке человеком метрики для оценки производительности агента. Автоматические метрики включают точность, полноту и F1-счет, а оценки, полученные людьми, отражают согласованность, релевантность и полезность ответов агента. Бенчмарки AMA-Bench построены вокруг трех ключевых характеристик: долгосрочная память, использование инструментов и сложные рассуждения.
Бенчмарки
В AMA-Bench включены следующие бенчмарки:
- InfoSeeking: Требует от агента поиска информации из нескольких источников и объединения ее для ответа на вопросы.
- QAnswering: Подразумевает ответы на вопросы, требующие рассуждений и вывода на основе предоставленной информации.
- Planning: Задачи, которые требуют от агента разработки плана действий для достижения цели.
- CreativeWriting: Задачи, которые требуют от агента создания оригинального и креативного контента.
- LongChat: Задачи, требующие от агента поддержания последовательного и согласованного разговора на протяжении длительного периода времени.
Платформа AMA-Bench доступна для общественности, и команда разработчиков планирует расширять ее новыми бенчмарками и функциями в будущем.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru