Cxmp: Новый бенчмарк для оценки понимания языка LLM

Недавние исследования рассматривают языковые модели с лингвистической точки зрения, чтобы лучше понять, как они осваивают язык. Большинство существующих тестов сосредоточено на оценке грамматической правильности, в то время как способность интерпретировать значения, передаваемые грамматическими формами, получает гораздо меньше внимания.

Новый подход к оценке понимания языка

Мы представляем лингвистический тест на основе минимальных пар для оценки понимания конструкций в языковых моделях (CxMP). Этот тест основан на принципах Конструктивной грамматики, рассматривающей соответствия формы и значения, или конструкции, как фундаментальные лингвистические единицы. CxMP оценивает, могут ли модели интерпретировать семантические отношения, подразумеваемые этими конструкциями.

Структура и принципы бенчмарка

Тест использует дизайн с минимальными парами для девяти типов конструкций, включая конструкции “let alone”, вызванного движения и дитранзитивные конструкции. Минимальные пары – это примеры, отличающиеся только одним элементом, который влияет на значение. Это позволяет исследователям изолировать и оценить способность модели понимать конкретные семантические отношения.

Результаты и выводы

Результаты показывают, что синтаксическая компетенция развивается довольно быстро, в то время как понимание конструкций происходит более постепенно и остаётся ограниченным даже в больших языковых моделях (LLM). CxMP выявляет устойчивые пробелы в том, как языковые модели объединяют форму и значение, и предоставляет основу для изучения понимания и траекторий обучения конструкций в языковых моделях. Таким образом, бенчмарк позволяет более глубоко изучить механизмы освоения языка моделями, и определить области, требующие дальнейшего развития.

Новый подход к оценке понимания языка

Структура и принципы бенчмарка

Результаты и выводы

Похожие новости

Будущее искусственного интеллекта и науки и ещё 12 новости

Открытые веса и кибербезопасность: риски и перспективы

Пятиуровневая структура безопасности для автономных агентов llm и ещё 17 новости

Опасения по поводу claude mythos и открытых весов моделей

Создание ai-агента для веба с помощью molmo web-4b и ещё 8 новости

Безопасные конвейеры llm с outlines и pydantic и ещё 15 новости