Ama-bench: новая платформа для оценки долговременной памяти агентов

AMA-Bench – это новая платформа для оценки долговременной памяти для агентских приложений. Она состоит из пяти сложных бенчмарков, охватывающих различные сценарии, такие как информационный поиск, ответы на вопросы, планирование и креативное письмо. Каждый бенчмарк требует от агента взаимодействия с внешними инструментами, такими как поисковые системы и API, для выполнения задач, требующих сохранения и извлечения информации на протяжении длительного времени.

Дизайн и особенности

AMA-Bench разработан для преодоления ограничений существующих бенчмарков, которые часто не отражают сложность реальных агентских приложений. Платформа включает в себя как автоматические, так и основанные на оценке человеком метрики для оценки производительности агента. Автоматические метрики включают точность, полноту и F1-счет, а оценки, полученные людьми, отражают согласованность, релевантность и полезность ответов агента. Бенчмарки AMA-Bench построены вокруг трех ключевых характеристик: долгосрочная память, использование инструментов и сложные рассуждения.

Бенчмарки

В AMA-Bench включены следующие бенчмарки:

InfoSeeking: Требует от агента поиска информации из нескольких источников и объединения ее для ответа на вопросы.
QAnswering: Подразумевает ответы на вопросы, требующие рассуждений и вывода на основе предоставленной информации.
Planning: Задачи, которые требуют от агента разработки плана действий для достижения цели.
CreativeWriting: Задачи, которые требуют от агента создания оригинального и креативного контента.
LongChat: Задачи, требующие от агента поддержания последовательного и согласованного разговора на протяжении длительного периода времени.

Платформа AMA-Bench доступна для общественности, и команда разработчиков планирует расширять ее новыми бенчмарками и функциями в будущем.

НАВИГАЦИЯ

МЕНЮ

Дизайн и особенности

Бенчмарки

Похожие новости

Ускорение обучения LLM: новый метод от MIT и NVIDIA

clindet-bench: оценка суждений больших языковых моделей

LFM2-24B-A2B: Новая архитектура ИИ для периферийных устройств

LM Link: Бесшовная удалённая инференция LLM с помощью Tailscale

photoagent: ai для редактирования фотографий с планированием

Контекстное проектирование LLM: Когда 'помощь' вредит