dlт-corpus и medsyn: новые бенчмарки для llm

Представлен DLT-Corpus, крупнейший на сегодняшний день специализированный текстовый корпус для исследований в области технологии распределенного реестра (DLT), содержащий 2,98 миллиарда токенов из 22,12 миллиона документов, включающих научную литературу (37 440 публикаций), патенты Патентного ведомства США (USPTO) (49 023 заявки) и социальные сети (22 миллиона публикаций). Существующие ресурсы обработки естественного языка (NLP) для DLT в основном сосредоточены на прогнозировании цен на криптовалюты и смарт-контрактах, оставляя специализированный язык недостаточно изученным, несмотря на рыночную капитализацию сектора в размере около 3 триллионов долларов и его быстрое технологическое развитие.

Авторы продемонстрировали полезность DLT-Corpus, проанализировав модели возникновения технологий и корреляции между рынком и инновациями. Результаты показали, что технологии возникают в научной литературе, а затем переходят к патентам и социальным сетям, следуя традиционным моделям передачи технологий.

Несмотря на то, что настроения в социальных сетях остаются в основном бычьими даже во время "крипто-зим", научная и патентная активность растет независимо от колебаний рынка, отслеживая общее расширение рынка в добродетельном цикле, где исследования предшествуют и стимулируют экономический рост, который финансирует дальнейшие инновации. Авторы публично опубликовали DLT-Corpus, LedgerBERT — модель, адаптированную для домена, которая на 23% превосходит BERT-base в задаче распознавания именованных сущностей (NER), специфичной для DLT, а также все связанные инструменты и код.

MEDSYN: Оценка многодоказательной синтеза

Представлен MEDSYN, многоязычный, мультимодальный бенчмарк для сложных клинических случаев с использованием мультимодальных больших языковых моделей (MLLM), включающий до 7 различных типов визуальных клинических доказательств (CE) на каждый случай. Авторы оценивали 18 MLLM на генерацию дифференциальной диагностики (DDx) и выбор окончательного диагноза (FDx), имитируя клинический процесс.

Несмотря на то, что лучшие модели часто соответствуют или даже превосходят человеческих экспертов в генерации DDx, все MLLM демонстрируют значительно больший разрыв в производительности между DDx и FDx по сравнению с опытными врачами, что указывает на проблему в синтезе разнородных типов CE.

Авторы выявили перегруженность менее различимыми текстовыми CE, например медицинской историей, и разрыв в использовании CE между модальностями в качестве причин этого сбоя. Введено понятие "чувствительность к доказательствам", которое позволяет оценить разрыв и показать, что меньший разрыв коррелирует с более высокой диагностической точностью. Авторы продемонстрировали, как это можно использовать для улучшения производительности модели, и планируют опубликовать свой бенчмарк и код с открытым исходным кодом.

DLT-Corpus на Hugging Face PDF о DLT-Corpus на ArXiv MEDSYN на Hugging Face PDF о MEDSYN на ArXiv

dlт-corpus и medsyn: новые бенчмарки для llm

MEDSYN: Оценка многодоказательной синтеза

Похожие статьи

Улучшение многоязычных представлений посредством выравнивания

Инженерия данных для больших языковых моделей (llm)

recent advances in ai research: iha, ttt & squint

radar: рассуждение как дискриминация для llm

scaling in, not up? testing thick citation context analysis with gpt-5

superglasses: оценка llm для умных очков