Articles

MedTri: Структурированная Нормализация Текста Для Медицинских Моделей

Heli
Автор
Heli
Опубликовано 27.02.2026
0,0
Views 1

В последнее время все большее значение приобретает предварительное обучение моделей, работающих с медицинскими изображениями и текстом, с использованием медицинских отчетов в качестве масштабных сигналов для обучения. Однако, необработанные отчеты часто характеризуются значительной стилистической неоднородностью, переменной длиной и большим количеством контента, не относящегося к изображениям.

Структурированная нормализация текстов для обучения моделей

Несмотря на то, что нормализация текста часто используется в качестве этапа предварительной обработки, принципы ее разработки и влияние на обучение моделей, работающих с медицинскими изображениями и текстом, изучены недостаточно систематически. В данной работе представлена MedTri – развертываемая платформа нормализации для предварительного обучения моделей, которая преобразует свободнотекстовые отчеты в унифицированные триплеты вида "[Анатомическая сущность: Радиологическое описание + Категория диагноза]".

Принципы работы MedTri

Такая структурированная нормализация, основанная на анатомии, сохраняет важную морфологическую и пространственную информацию, одновременно удаляя стилистический шум и контент, не относящийся к изображению. Это обеспечивает согласованное и привязанное к изображениям текстовое обучение в больших масштабах.

Результаты экспериментов

На нескольких наборах данных, включающих рентгеновские снимки и компьютерную томографию (КТ), было продемонстрировано, что структурированная нормализация текста, основанная на анатомии, является важным фактором для качества обучения моделей. Она обеспечивает стабильное улучшение результатов по сравнению с использованием необработанных отчетов и существующих методов нормализации.

Поддержка расширения данных

Кроме того, MedTri позволяет легко поддерживать модульные стратегии расширения данных на уровне текста, включая обогащение знаний и контрафактическое обучение на основе анатомии. Эти стратегии обеспечивают дополнительное повышение устойчивости и обобщающей способности моделей без изменения основного процесса нормализации.

Полученные результаты показывают, что структурированная нормализация текста является критически важным и универсальным этапом предварительной обработки для обучения моделей, работающих с медицинскими изображениями и текстом, а MedTri предоставляет платформу для реализации этой нормализации. Код и данные доступны по ссылке https://github.com/Arturia-Pendragon-Iris/MedTri.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости