новые модели и инструменты ai: homesafe-bench, derain-agent и другие

HomeSafe-Bench: Оценка моделей "зрение-язык" на предмет обнаружения опасных действий

HomeSafe-Bench – это новый инструмент для оценки моделей "зрение-язык" (VLMs) в обнаружении опасных действий для встроенных агентов в бытовых сценариях. Разработанный 12 марта 2026 года Xiao Zhang, Jun Xu, Jiayue Pu, Zhongxiang Sun и Zilu Zhang, HomeSafe-Bench призван решить проблему неадекватной оценки безопасности в домашних условиях, где есть непредсказуемые риски. Инструмент представляет собой 438 разнообразных случаев в шести функциональных областях с детализированными многомерными аннотациями, созданных с помощью физического моделирования и продвинутой генерации видео.

В рамках работы также предложен HD-Guard – иерархическая потоковая архитектура для мониторинга безопасности в реальном времени, которая сочетает в себе быстрый и глубокий анализ для эффективного обнаружения угроз.

Ресурсы доступны на Hugging Face и в формате PDF.

Derain-Agent: Плагин для восстановления изображений в условиях дождя

12 марта 2026 года Kui Jiang, Zhaocheng Yu, Xiang Chen, Runzhe Li, Zihan Geng и другие авторы представили Derain-Agent – подключаемый фреймворк для улучшения восстановления изображений, сделанных в дождливую погоду. Derain-Agent переводит процесс восстановления из статического в динамический, агент-ориентированный, оснащая базовую модель двумя ключевыми функциями: Планирующая сеть, которая определяет оптимальную последовательность инструментов, и механизм модуляции силы, который применяет инструменты с пространственно-адаптивной интенсивностью. Это позволяет точно корректировать ошибки без значительных вычислительных затрат.

Ресурсы доступны на Hugging Face и в формате PDF.

Оценка связи между третьим моляром и нижнечелюстным каналом с использованием глубокого обучения

Ruben Pauwels, Sara Haghighat, Sanyam Jain, Faezeh Dehghan Ghanatkaman, Basel Khalil и другие исследователи провели сравнение локального, федеративного и централизованного обучения для классификации перекрытия моляра и нижнечелюстного канала на панорамных рентгеновских снимках. Исследование, опубликованное 12 марта 2026 года, показало, что централизованное обучение (CL) достигло наивысшей производительности (AUC 0.831; точность = 0.782), федеративное обучение (FL) продемонстрировало промежуточные результаты (AUC 0.757; точность = 0.703), а локальное обучение (LL) плохо обобщалось (AUC в диапазоне 0.619-0.734; среднее = 0.672).

Ресурсы доступны на Hugging Face и в формате PDF.

OSM-based Domain Adaptation for Remote Sensing VLMs

Delyan Boychev, Luc Van Gool, Danda Pani Paudel, Stefan Maria Ailuro и Mario Markov представили OSMDA – фреймворк для доменной адаптации, который не зависит от больших моделей. Авторы предлагают использовать OpenStreetMap (OSM) для генерации аннотаций, используя возможности модели по распознаванию текста и пониманию схем. OSMDA-VLM, обученная таким образом, требует отсутствие ручной разметки и внешних моделей.

Ресурсы доступны на Hugging Face и в формате PDF.

HomeSafe-Bench: Оценка моделей "зрение-язык" на предмет обнаружения опасных действий

Derain-Agent: Плагин для восстановления изображений в условиях дождя

Оценка связи между третьим моляром и нижнечелюстным каналом с использованием глубокого обучения

OSM-based Domain Adaptation for Remote Sensing VLMs

Похожие новости

Perplexity Computer, AI-агенты и новости ИИ

Новые исследования в области обработки естественного языка (nlp) в 2026 году

OpenClaw: Безопасное развертывание автономных агентов в 2026 году

NVIDIA Nemotron 3: открытые модели для AI-агентов с контекстом 1 млн токенов

timer-s1: модель для временных рядов

Google лидирует в генерации изображений AI: Nano Banana 2 и другие новости