MedTri: Структурированная Нормализация Текста Для Медицинских Моделей
В последнее время все большее значение приобретает предварительное обучение моделей, работающих с медицинскими изображениями и текстом, с использованием медицинских отчетов в качестве масштабных сигналов для обучения. Однако, необработанные отчеты часто характеризуются значительной стилистической неоднородностью, переменной длиной и большим количеством контента, не относящегося к изображениям.
Структурированная нормализация текстов для обучения моделей
Несмотря на то, что нормализация текста часто используется в качестве этапа предварительной обработки, принципы ее разработки и влияние на обучение моделей, работающих с медицинскими изображениями и текстом, изучены недостаточно систематически. В данной работе представлена MedTri – развертываемая платформа нормализации для предварительного обучения моделей, которая преобразует свободнотекстовые отчеты в унифицированные триплеты вида "[Анатомическая сущность: Радиологическое описание + Категория диагноза]".
Принципы работы MedTri
Такая структурированная нормализация, основанная на анатомии, сохраняет важную морфологическую и пространственную информацию, одновременно удаляя стилистический шум и контент, не относящийся к изображению. Это обеспечивает согласованное и привязанное к изображениям текстовое обучение в больших масштабах.
Результаты экспериментов
На нескольких наборах данных, включающих рентгеновские снимки и компьютерную томографию (КТ), было продемонстрировано, что структурированная нормализация текста, основанная на анатомии, является важным фактором для качества обучения моделей. Она обеспечивает стабильное улучшение результатов по сравнению с использованием необработанных отчетов и существующих методов нормализации.
Поддержка расширения данных
Кроме того, MedTri позволяет легко поддерживать модульные стратегии расширения данных на уровне текста, включая обогащение знаний и контрафактическое обучение на основе анатомии. Эти стратегии обеспечивают дополнительное повышение устойчивости и обобщающей способности моделей без изменения основного процесса нормализации.
Полученные результаты показывают, что структурированная нормализация текста является критически важным и универсальным этапом предварительной обработки для обучения моделей, работающих с медицинскими изображениями и текстом, а MedTri предоставляет платформу для реализации этой нормализации. Код и данные доступны по ссылке https://github.com/Arturia-Pendragon-Iris/MedTri.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru