clindet-bench: оценка суждений больших языковых моделей
ClinDet-Bench — это новая оценка, предназначенная для оценки способности больших языковых моделей (LLM) принимать суждения в клинических решениях. В отличие от существующих оценок, которые в основном сосредоточены на выявлении отказов LLM от ответа, ClinDet-Bench оценивает "определимость суждения" — то есть, является ли суждение LLM логичным и обоснованным, даже если оно не является полностью правильным.
ClinDet-Bench включает в себя 150 клинических сценариев, охватывающих различные медицинские специальности, включая кардиологию, неврологию и онкологию. Каждый сценарий представляет собой краткое описание случая пациента, за которым следует вопрос, требующий клинического суждения. Вместо простого выбора между правильным и неправильным ответом, ClinDet-Bench просит LLM предоставить обоснование для своего суждения. Затем эти обоснования оцениваются медицинскими экспертами на предмет логичности и обоснованности.
Оценка ClinDet-Bench выявляет, что даже высокопроизводительные LLM часто испытывают трудности с определимостью суждения. Хотя они могут часто предоставлять правильные ответы, их обоснования часто бывают неполными, противоречивыми или не основанными на медицинских знаниях. Результаты показывают, что способность LLM давать обоснованные суждения является важным фактором при оценке их пригодности для использования в клинической практике.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru