Cxmp: Новый бенчмарк для оценки понимания языка LLM
Недавние исследования рассматривают языковые модели с лингвистической точки зрения, чтобы лучше понять, как они осваивают язык. Большинство существующих тестов сосредоточено на оценке грамматической правильности, в то время как способность интерпретировать значения, передаваемые грамматическими формами, получает гораздо меньше внимания.
Новый подход к оценке понимания языка
Мы представляем лингвистический тест на основе минимальных пар для оценки понимания конструкций в языковых моделях (CxMP). Этот тест основан на принципах Конструктивной грамматики, рассматривающей соответствия формы и значения, или конструкции, как фундаментальные лингвистические единицы. CxMP оценивает, могут ли модели интерпретировать семантические отношения, подразумеваемые этими конструкциями.
Структура и принципы бенчмарка
Тест использует дизайн с минимальными парами для девяти типов конструкций, включая конструкции “let alone”, вызванного движения и дитранзитивные конструкции. Минимальные пары – это примеры, отличающиеся только одним элементом, который влияет на значение. Это позволяет исследователям изолировать и оценить способность модели понимать конкретные семантические отношения.
Результаты и выводы
Результаты показывают, что синтаксическая компетенция развивается довольно быстро, в то время как понимание конструкций происходит более постепенно и остаётся ограниченным даже в больших языковых моделях (LLM). CxMP выявляет устойчивые пробелы в том, как языковые модели объединяют форму и значение, и предоставляет основу для изучения понимания и траекторий обучения конструкций в языковых моделях. Таким образом, бенчмарк позволяет более глубоко изучить механизмы освоения языка моделями, и определить области, требующие дальнейшего развития.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru