clindet-bench: оценка суждений больших языковых моделей

ClinDet-Bench — это новая оценка, предназначенная для оценки способности больших языковых моделей (LLM) принимать суждения в клинических решениях. В отличие от существующих оценок, которые в основном сосредоточены на выявлении отказов LLM от ответа, ClinDet-Bench оценивает "определимость суждения" — то есть, является ли суждение LLM логичным и обоснованным, даже если оно не является полностью правильным.

ClinDet-Bench включает в себя 150 клинических сценариев, охватывающих различные медицинские специальности, включая кардиологию, неврологию и онкологию. Каждый сценарий представляет собой краткое описание случая пациента, за которым следует вопрос, требующий клинического суждения. Вместо простого выбора между правильным и неправильным ответом, ClinDet-Bench просит LLM предоставить обоснование для своего суждения. Затем эти обоснования оцениваются медицинскими экспертами на предмет логичности и обоснованности.

Оценка ClinDet-Bench выявляет, что даже высокопроизводительные LLM часто испытывают трудности с определимостью суждения. Хотя они могут часто предоставлять правильные ответы, их обоснования часто бывают неполными, противоречивыми или не основанными на медицинских знаниях. Результаты показывают, что способность LLM давать обоснованные суждения является важным фактором при оценке их пригодности для использования в клинической практике.

НАВИГАЦИЯ

МЕНЮ

Похожие новости

Ускорение обучения LLM: новый метод от MIT и NVIDIA

Cxmp: Новый бенчмарк для оценки понимания языка LLM

Ama-bench: новая платформа для оценки долговременной памяти агентов

3LM: Новый тест для оценки LLM на арабском языке

Новый метод ускоряет обучение больших языковых моделей

Контекстное проектирование LLM: Когда 'помощь' вредит