multiscale switch для полуконтролируемого обучения сегментации изображений

Multiscale Switch для полуконтролируемого и контрастного обучения в сегментации изображений медицинского ультразвука

19 марта 2026 года. Авторы: Simon Takadiyi Gunda, Ziman Chen, Ann Dorothy King, Jing Cai, Jingguo Quand и 6 других.

Сегментация изображений медицинского ультразвука сталкивается со значительными трудностями из-за ограниченного количества размеченных данных и характерных артефактов изображения, включая шумы и низкую контрастность границ. Хотя подходы полуконтролируемого обучения (SSL) появились для решения проблемы нехватки данных, существующие методы страдают от неоптимального использования неразмеченных данных и отсутствия надежных механизмов представления признаков.

В данной статье представлен Switch — новый SSL-фреймворк с двумя ключевыми инновациями: (1) стратегия Multiscale Switch (MSS), использующая иерархическое смешивание патчей для достижения равномерного пространственного покрытия; (2) Frequency Domain Switch (FDS) с контрастным обучением, выполняющий переключение амплитуды в частотной области для получения надежных представлений признаков. Фреймворк интегрирует эти компоненты в архитектуру «учитель-ученик» для эффективного использования как размеченных, так и неразмеченных данных.

Всесторонняя оценка на шести различных наборах данных ультразвуковых изображений (лимфатические узлы, поражения молочной железы, узлы щитовидной железы и простата) демонстрирует последовательное превосходство над современными методами. При 5% соотношении размеченных данных Switch достигает замечательных улучшений: 80,04% Dice на LN-INT, 85,52% Dice на DDTI и 83,48% Dice на наборе данных Prostate, при этом наш полуконтролируемый подход даже превосходит полностью контролируемые базовые значения.

Метод поддерживает параметрическую эффективность (1,8 миллиона параметров) и при этом обеспечивает превосходную производительность, что подтверждает его эффективность для медицинских приложений с ограниченными ресурсами. Исходный код общедоступен по ссылке https://github.com/jinggqu/SwitchResources.

Оценка оптимизации политики без модели в замаскированных средах действий с помощью точного оракула Blackjack

19 марта 2026 года. Автор: Kevin Song.

Бесконечная игра в блэкджек в казино обеспечивает строгий и точно проверяемый эталон для дискретного стохастического управления с динамически замаскированными действиями. При фиксированных правилах Вегаса (S17, выплата 3:2, взгляд дилера, удвоение на любых двух, удвоение после разделения, разделение до четырех) был получен точный динамический программный (DP) оракул более чем для 4600 канонических ячеек принятия решений.

Этот оракул предоставил значения действий, оптимальные метки политики и теоретическое ожидаемое значение (EV) в -0,00161 на руку. Для оценки эффективности восстановления политики с помощью небольшого количества примеров три оптимизатора без модели были обучены посредством имитированного взаимодействия: замаскированный REINFORCE со среднеэкспоненциальным базовым значением для ячеек, стохастическая аппроксимация с одновременным возмущением (SPSA) и метод перекрестной энтропии (CEM).

REINFORCE был наиболее эффективным с точки зрения использования выборок, достигнув 46,37% соответствия действий и EV -0,04688 после 10^6 рук, превзойдя CEM (39,46%, 7,5x10^6 оценок) и SPSA (38,63%, 4,8x10^6 оценок). Однако все методы продемонстрировали значительное клеточно-зависимое сожаление, что указывает на устойчивые ошибки на уровне политики, несмотря на плавную сходимость вознаграждения.

Этот разрыв показывает, что табличные среды с серьезным недостатком посещения состояний и динамическим маскированием действий остаются сложными, в то время как агрегированные кривые вознаграждения могут скрывать критические локальные сбои. В качестве негативного контроля было доказано и эмпирически подтверждено, что при случайных розыгрышах без учета оптимальный размер ставки сводится к минимальной ставке стола. Кроме того, более крупные ставки строго увеличивали волатильность и риск банкротства без улучшения ожидаемого значения.

Эти результаты подчеркивают необходимость точных оракулов и отрицательных контролей, чтобы избежать путаницы между стохастической изменчивостью и истинной производительностью алгоритма.

GEAR: Структура распознавания аналогов, улучшенная географическими знаниями, в экстремальных условиях

19 марта 2026 года. Авторы: Yuling Zhou, Xuanting Li, Yixuan Yang, Jing Wang, Weishu Zhao и 3 других.

Марианская впадина и Тибетское нагорье демонстрируют значительное сходство в геологическом происхождении и функциях метаболизма микробов. Учитывая, что отбор биологических образцов из глубоководья сопряжен с непомерно высокими затратами, распознавание структурно гомологичных наземных аналогов Марианской впадины на Тибетском нагорье имеет большое значение.

Однако ни одна существующая модель не решает адекватно задачу извлечения топографического сходства между доменами, либо пренебрегая географическими знаниями, либо жертвуя вычислительной эффективностью. Чтобы решить эти проблемы, мы представляем \underline{G}eography-knowledge \underline{E}nhanced \underline{A}nalog \underline{R}ecognition (GEAR) Framework — трехэтапный конвейер, предназначенный для эффективного извлечения аналогов с 2,5 миллионов квадратных километров Тибетского нагорья: (1) Skeleton guided Screening and Clipping: Распознавание долин-кандидатов и первоначальный скрининг на основе размера и линейных морфологических критериев. (2) Physics aware Filtering: Topographic Waveform Comparator (TWC) и Morphological Texture Module (MTM) оценивают форму волны и текстуру и отфильтровывают непоследовательные долин-кандидаты. (3) Graph based Fine Recognition: Мы разрабатываем \underline{M}orphology-integrated \underline{S}iamese \underline{G}raph \underline{N}etwork (MSG-Net) на основе геоморфологических показателей. Соответственно, мы выпускаем аннотированный экспертами набор данных о топографическом сходстве, ориентированный на зоны тектонического столкновения.

Эксперименты демонстрируют эффективность каждого этапа. Кроме того, MSG-Net достигла F1-оценки на 1,38 процентных пункта выше, чем у SOTA-базового значения. Используя признаки, извлеченные с помощью MSG-Net, мы обнаружили значительную корреляцию с биологическими данными, предоставляя доказательства для будущего биологического анализа.

Перенос обоснований между модальностями для объяснимой гуманитарной классификации в социальных сетях

19 марта 2026 года. Авторы: Thi Huyen Nguyen, Koustav Rudra, Wolfgang Nejdl.

Достижения в распространении данных в социальных сетях позволяют предоставлять информацию в режиме реального времени во время кризиса. Информация поступает из разных классов, таких как повреждения инфраструктуры, пропавшие или оказавшиеся в бедственном положении люди в пострадавшей зоне и т.д.

Существующие методы пытались классифицировать текст и изображения в различные гуманитарные категории, но их процесс принятия решений остается в значительной степени непрозрачным, что влияет на их развертывание в реальных приложениях. Недавние исследования стремились повысить прозрачность путем извлечения текстовых обоснований из твитов для объяснения прогнозируемых классов.

Однако такие методы объяснимой классификации в основном фокусировались на тексте, а не на изображениях, связанных с кризисом. В данной статье предлагается интерпретируемая по замыслу мультимодальная структура классификации.

Наш метод сначала изучает совместное представление текста и изображения с помощью модели визуального языкового трансформатора и извлекает текстовые обоснования. Затем он извлекает обоснования изображений посредством сопоставления с текстовыми обоснованиями.

Наш подход демонстрирует, как изучать обоснования в одной модальности из другой посредством переноса обоснований между модальностями, что позволяет сэкономить усилия на аннотировании. Наконец, твиты классифицируются на основе извлеченных обоснований.

Эксперименты проводятся на эталонном наборе данных CrisisMMD, и результаты показывают, что наш предложенный метод повышает классификацию Macro-F1 на 2-35%, извлекая точные текстовые токены и фрагменты изображений в качестве обоснований. Оценка экспертов также подтверждает утверждение о том, что наш предложенный метод способен извлекать лучшие фрагменты изображений (12%), которые помогают идентифицировать гуманитарные классы.

Наш метод хорошо адаптируется к новым, невидимым наборам данных в режиме нулевого выстрела, достигая точности 80%.

Улучшение совместного создания аудио и видео за счет обучения контексту между модальностями

19 марта 2026 года. Авторы: Dailan He, Xingtong Ge, Yi Zhang, Guanglu Song, Yu Liu и 3 других.

Метод совместного создания аудио и видео на основе архитектуры трансформатора с двойным потоком стал доминирующим парадигмой в текущих исследованиях. Путем включения предварительно обученных моделей диффузии видео и диффузии аудио, а также модуля внимания для межмодального взаимодействия можно генерировать высококачественный, временным образом синхронизированный контент аудио и видео с минимальным количеством обучающих данных.

В данной статье мы сначала пересматриваем парадигму трансформатора с двойным потоком и далее анализируем ее ограничения, в том числе вариации многообразия модели, вызванные механизмом затвора, контролирующим межмодальные взаимодействия, предубеждения в мультимодальных фоновых областях, вызванные межмодальным вниманием, и несоответствия в мультимодальном классификаторе-бесплатной ориентации (CFG) во время обучения и вывода, а также конфликты между несколькими условиями. Чтобы смягчить эти проблемы, мы предлагаем Cross-Modal Context Learning (CCL), оснащенный несколькими специально разработанными модулями.

Temporally Aligned RoPE и Partitioning (TARP) эффективно повышают временную согласованность между латентным представлением аудио и латентным представлением видео. Обучаемые контекстные токены (LCT) и Dynamic Context Routing (DCR) в модуле Cross-Modal Context Attention (CCA) обеспечивают стабильные безусловные якоря для межмодальной информации, одновременно динамически маршрутизируя на основе различных задач обучения, что еще больше повышает скорость сходимости модели и качество генерации.

Во время вывода Unconditional Context Guidance (UCG) использует безусловную поддержку, предоставляемую LCT, для облегчения различных форм CFG, улучшая согласованность обучения и вывода и еще больше смягчая конфликты. Благодаря всесторонним оценкам CCL достигает самых современных результатов по сравнению с недавними академическими методами, требуя при этом значительно меньше ресурсов.

Multiscale Switch для полуконтролируемого и контрастного обучения в сегментации изображений медицинского ультразвука

Оценка оптимизации политики без модели в замаскированных средах действий с помощью точного оракула Blackjack

GEAR: Структура распознавания аналогов, улучшенная географическими знаниями, в экстремальных условиях

Перенос обоснований между модальностями для объяснимой гуманитарной классификации в социальных сетях

Улучшение совместного создания аудио и видео за счет обучения контексту между модальностями

Похожие новости

Ускорение исследований в области здравоохранения с помощью генеративного ИИ

новые модели и инструменты ai: homesafe-bench, derain-agent и другие

Новые исследования в области обработки естественного языка (nlp) в 2026 году

Google лидирует в генерации изображений AI: Nano Banana 2 и другие новости

Сжатие нейронных сетей для классификации гиперспектральных изображений

новые разработки в области искусственного интеллекта и машинного обучения