Microsoft Research представляет CORPGEN для автономных AI-агентов и ещё 41 но...

Microsoft Research представляет CORPGEN для автономных AI-агентов

Исследователи Microsoft разработали CORPGEN — платформу, не зависящую от архитектуры, предназначенную для управления сложностями реальной работы в организациях с помощью автономных цифровых сотрудников. В отличие от существующих тестов, оценивающих AI-агентов на отдельных задачах, реальные корпоративные среды требуют одновременного выполнения множества взаимосвязанных задач.

Ключевой проблемой, выявленной командой, является снижение производительности при переходе от простых задач к сложным сценариям с множеством зависимостей. Исследование выявило четыре основных причины: насыщение контекста, помехи памяти, сложность графа зависимостей и затраты на переопределение приоритетов.

CORPGEN решает эти проблемы с помощью четырех ключевых механизмов: иерархическое планирование, изоляция под-агентов, многоуровневая архитектура памяти и адаптивное сжатие. Эксперименты показали улучшение производительности до 3,5 раза по сравнению с базовыми моделями, достигнув 15,2% успеха при 100% загрузке. Важным фактором стало "обучение на опыте", переиспользование успешных траекторий.

Perplexity выпустила pplx-embed: новые AI модели

Perplexity представила pplx-embed – набор многоязыковых моделей для обработки больших объемов информации. Эти модели разработаны для работы с данными из интернета, обеспечивая альтернативу проприетарным API.

Особенность новых моделей – использование двунаправленного внимания, позволяющего учитывать весь контекст текста, а не только предсказывать следующий токен. Также применяется диффузионное предварительное обучение, которое помогает модели выделять важную информацию из шумных данных.

В рамках проекта представлены две версии моделей: одна оптимизирована для самостоятельных встраиваний и поисковых запросов, а вторая – для работы с большими документами, используемыми в системах RAG. Модели доступны в двух размерах (0.6B и 4B параметров) и поддерживают квантизацию INT8 для повышения эффективности.

pplx-embed

Google Nano Banana 2: модель генерации изображений

Google выпустила Nano Banana 2, новую модель генерации и редактирования изображений. Модель стала стандартной для всех планов Gemini и доступна в Google Search, Lens, AI Studio, Vertex AI и редакторе видео Flow.

Nano Banana 2 поддерживает разрешение от 512 px до 4K, работает с 14 форматами соотношений сторон включая нестандартные (4:1, 8:1, 1:4, 1:8), одновременно обрабатывает до 14 референсных изображений для редактирования и многоизображенного блендинга. Улучшено следование инструкциям, точность рендеринга текста и поддержка нескольких языков. Модель использует поиск в реальном времени для точного отображения объектов.

В основе Nano Banana 2 лежит 1,8-миллиардный параметрический бэкбон, который, по заявлению Google, конкурирует с моделями втрое большего размера. Это технически Gemini 3.1 Flash Image.

Криоэлектронная микроскопия с использованием графовых нейронных сетей

Мы представляем метод, учитывающий геометрию, для реконструкции гетерогенных образцов в криоэлектронной микроскопии (cryo-EM) с использованием одночастичного анализа, который позволяет предсказывать конформации атомарного скелета белка. Для включения априорных знаний о структуре белка, скелет представлен в виде графа, и используется автодекодер на основе графовой нейронной сети (GNN). Этот автодекодер сопоставляет скрытые переменные, полученные для каждого изображения, с трехмерными смещениями эталонной конформации.

Сочетание данных и геометрической регуляризации

Целевая функция объединяет член, учитывающий расхождение между данными, основанный на дифференцируемой модели переноса cryo-EM, с геометрической регуляризацией. Также обеспечивается поддержка неизвестных ориентаций с помощью оценки положения на основе подъема эллипсоидальной поддержки (Ellipsoidal Support Lifting – ESL).

Преимущества GNN по сравнению с MLP

На синтетических наборах данных, полученных на основе траекторий молекулярной динамики, предложенная GNN демонстрирует более высокую точность по сравнению с многослойным перцептроном (MLP) сопоставимого размера. Это подчеркивает преимущества использования индуктивного смещения, основанного на геометрии.

Влияние ИИ на принятие решений: фреймворк '2-Step Agent'

Всё больше сфер деятельности опираются на поддержку принятия решений человеком с помощью прогнозов, генерируемых моделями искусственного интеллекта. Однако мы до сих пор не до конца понимаем, как внедрение этих технологий влияет на процесс принятия решений. В данной работе представлен универсальный вычислительный фреймворк – "2-Step Agent", который моделирует эффекты принятия решений при помощи ИИ.

Моделирование процесса принятия решений

В основе фреймворка лежат байесовские методы причинно-следственного вывода. Они позволяют моделировать два ключевых этапа: влияние прогноза ИИ на новую информацию на убеждения рационального байесовского агента и, как изменение этих убеждений влияет на принятие решения и последующий исход.

Результаты моделирования

Используя этот фреймворк, авторы провели серию симуляций, которые показали, что даже одно неверное априорное убеждение может привести к тому, что поддержка принятия решений с помощью ИИ даст худшие результаты, чем отсутствие этой поддержки.

Потенциальные риски и необходимость обучения

Полученные результаты выявляют ряд потенциальных ловушек при использовании ИИ для поддержки принятия решений. Это подчеркивает необходимость тщательной документации моделей и правильного обучения пользователей для эффективного и безопасного использования таких систем.

Динамическая Гибридная Параллелизация для MLLM

Развитие возможностей работы с длинным контекстом критически важно для мультимодальных больших языковых моделей (MLLM). Однако реальные мультимодальные наборы данных крайне неоднородны. Существующие фреймворки для обучения в основном полагаются на статические стратегии параллелизации, которые страдают от серьезного дисбаланса нагрузки, избыточной коммуникации и неоптимального использования оборудования при гетерогенности данных.

Динамическая Гибридная Параллелизация (DHP)

В данной работе предложена стратегия динамической гибридной параллелизации (DHP), которая позволяет адаптивно реконфигурировать группы коммуникаций и степени параллелизма в процессе обучения MLLM.

DHP обобщает понятие степеней параллелизма, не являющихся степенью двойки, и разрабатывает алгоритм, работающий за полиномиальное время, для генерации почти оптимальных стратегий параллелизации с накладными расходами в миллисекундах на каждую обучающую партию. Это позволяет DHP поддерживать высокую эффективность использования оборудования даже при экстремальной изменчивости данных.

Результаты экспериментов

Экспериментальные результаты показывают, что DHP значительно превосходит Megatron-LM и DeepSpeed, достигая ускорения пропускной способности обучения до 1.36 раза, сохраняя при этом почти линейную эффективность масштабирования в больших кластерах NPU.

OpenClaw: 5 ключевых моментов перед использованием

OpenClaw – одна из самых мощных платформ для создания автономных агентов с открытым исходным кодом в 2026 году. Это не просто чат-бот, а система, которая запускает процессы, устанавливает "навыки" (skills), подключается к инструментам и взаимодействует с вашими системами и мессенджерами.

Такие возможности делают OpenClaw особенной, но требуют ответственного подхода, как к управлению инфраструктурой. Важно учитывать риски безопасности и операционные аспекты при развертывании OpenClaw локально или в production.

Надо помнить, что "навыки" OpenClaw – это исполняемый код, а не просто дополнения. Они могут выполнять команды, получать доступ к файлам и взаимодействовать с системой. Убедитесь, что используете сильную модель, чтобы избежать ошибок, нежелательных действий и проблем с безопасностью.

Особое внимание уделите хранению секретов и ограничьте доступ к рабочему пространству OpenClaw. API-ключи, токены и другие конфиденциальные данные должны быть защищены. Функция голосовых вызовов добавляет новые возможности, но и требует четких ограничений для предотвращения несанкционированного использования.

OpenClaw – мощная платформа для создания автономных систем. Подходите к её использованию осознанно, выбирайте надежные компоненты, настраивайте ограничения и следите за безопасностью.

MovieTeller: Автоматическое создание синопсисов фильмов

С ростом количества цифрового контента автоматическое суммирование видео становится всё более важным для индексации, рекомендаций и архивирования. Создание кратких содержаний для полнометражных фильмов и сериалов – сложная задача для современных моделей, работающих с видео и текстом.

Разработана система MovieTeller, которая позволяет создавать синопсисы фильмов, используя внешние инструменты и последовательное упрощение информации. Модель не требует дополнительного обучения – она напрямую использует готовые решения. Сначала система идентифицирует персонажей и их местоположение на экране, а затем эта информация добавляется к запросу для модели, генерирующей описание сцен.

Благодаря такому подходу, MovieTeller обеспечивает более точное описание событий, сохраняет идентичность персонажей и лучше структурирует повествование по сравнению с другими существующими решениями. Суммирование фильма разбивается на несколько этапов, что позволяет обрабатывать длинные видео без потери качества.

Openai и Amazon: партнерство для развития AI

OpenAI и Amazon объявили о стратегическом партнерстве, в рамках которого платформа Frontier от OpenAI будет доступна в AWS. Это расширит инфраструктуру искусственного интеллекта, возможности создания пользовательских моделей и корпоративных AI-агентов.

Microsoft и OpenAI: Продолжение партнерства

Microsoft и OpenAI продолжают тесно сотрудничать в области исследований, разработки и создания продуктов, опираясь на многолетний опыт глубокого взаимодействия и общих достижений.

Stateful Agents в Amazon Bedrock на основе OpenAI

Окружение для агентов с сохранением состояния в Amazon Bedrock предоставляет устойчивую оркестровку, память и безопасное выполнение многошаговых рабочих процессов на основе искусственного интеллекта, работающих на OpenAI.

Если поле content пустое или недоступно, используется Stateful Runtime для агентов в Amazon Bedrock.

Дифференцируемая потеря ноль-один через проекции на гиперсимплекс

Дифференцируемая потеря "ноль-один" достигается посредством проекций на гиперсимплекс.

Традиционные методы решения задач классификации часто используют функцию потерь "ноль-один", которая оценивает правильность классификации как 0 при неправильном предсказании и 1 при правильном. Однако, эта функция не является дифференцируемой, что затрудняет ее использование в методах оптимизации, основанных на градиенте. В статье предложен новый подход к решению этой проблемы, основанный на проекциях на гиперсимплекс.

Гиперсимплекс – это обобщение симплекса на произвольное число измерений. Проекция на гиперсимплекс позволяет получить дифференцируемую аппроксимацию функции потерь "ноль-один". Это достигается путем проецирования предсказаний модели на гиперсимплекс, что приводит к сглаживанию функции потерь и делает ее пригодной для оптимизации с использованием методов градиентного спуска.

Предложенный метод включает в себя разработку эффективных алгоритмов для вычисления проекций на гиперсимплекс. Авторы показали, что использование проекций на гиперсимплекс в качестве регуляризатора может улучшить обобщающую способность моделей классификации.

Архитектура битовых систолических массивов для аппаратных ускорителей

Архитектура битовых систолических массивов предназначена для выполнения многоточечных квантованных умножений на аппаратных ускорителях с возможностью переконфигурации во время выполнения.

Архитектура

Предлагаемая архитектура использует систолический массив для эффективного выполнения квантованных умножений. Битовые операции позволяют реализовать умножение с различной точностью, что делает архитектуру гибкой и пригодной для широкого спектра задач. Переконфигурация во время выполнения позволяет динамически изменять параметры умножения, такие как количество битов, используемых для представления операндов, оптимизируя производительность и энергоэффективность.

Реализация

Архитектура реализована на аппаратном ускорителе. Использование систолического массива позволяет эффективно использовать ресурсы и достигать высокой пропускной способности. Битовые операции упрощают реализацию и снижают требования к аппаратному обеспечению. Возможность переконфигурации во время выполнения реализуется за счет использования программируемых элементов, которые можно динамически изменять для изменения параметров умножения.

ODEBRAIN: Neural ODE для моделирования динамики ЭЭГ

Моделирование динамики нейронных популяций важно для фундаментальных нейронаучных исследований и различных клинических применений. Традиционные методы латентных переменных обычно моделируют непрерывную динамику мозга, дискретизируя время с помощью рекуррентной архитектуры, что приводит к накоплению ошибок прогнозирования и неспособности зафиксировать мгновенные, нелинейные характеристики ЭЭГ.

Авторы

Такаси Мацубара, Хаохуи Цзя, Рикуто Котоге, Джатуршан Прадипкумар, Ясуко Мацубара и еще 4 автора.

Резюме

Представлена ODEBRAIN – структура латентного динамического прогнозирования на основе Neural ODE, разработанная для преодоления указанных сложностей. Она объединяет пространственно-временные-частотные характеристики в узлы спектрального графа, а затем использует Neural ODE для моделирования непрерывной латентной динамики. Конструкция обеспечивает, что латентные представления могут захватывать стохастические вариации сложных состояний мозга в любой момент времени.

Эксперименты показали, что ODEBRAIN значительно превосходит существующие методы в прогнозировании динамики ЭЭГ с улучшенной устойчивостью и обобщающей способностью.

Ресурсы

Просмотр на Hugging Face Читать PDF ArXiv

uni-animator: унифицированная колоризация изображений

Uni-Animator стремится к унифицированной визуальной колоризации.

Uni-Animator - это новая модель, предназначенная для решения задачи колоризации изображений. Она отличается от предыдущих подходов способностью обрабатывать различные типы входных данных – изображения, эскизы, текстовые описания и комбинации этих элементов. Модель создаёт реалистичные и последовательные изображения на основе предоставленных входных данных.

Архитектура и функциональность

В основе Uni-Animator лежит архитектура, объединяющая диффузионные модели и трансформеры. Диффузионные модели используются для генерации детализированных и реалистичных изображений, в то время как трансформеры обеспечивают понимание и интеграцию различных входных данных. Модель может выполнять как локальную колоризацию (окрашивание отдельных областей изображения), так и глобальную колоризацию (окрашивание всего изображения). Uni-Animator также предоставляет пользователям контроль над процессом колоризации через текстовые подсказки и эскизы.

Uni-Animator способна не только колоризировать изображения, но и редактировать существующие цвета, добавлять новые объекты и изменять стиль изображения. Это достигается благодаря использованию текстовых инструкций и возможности комбинировать различные входные данные. Модель умеет генерировать изображения с высоким разрешением и поддерживать согласованность цветов в сложных сценах.

скрытое гауссовское разбрасывание для 4d панорамного отслеживания заполнения

Скрытое гауссовское разбрасывание для 4D панорамного отслеживания заполнения

Мы представляем новый подход к 4D панорамному отслеживанию заполнения, который обеспечивает детальное и полное представление сцены с течением времени. Наш метод, названный Latent Gaussian Splatting (LGS), превосходит существующие методы, особенно в сложных динамических сценах.

LGS представляет сцену как набор гауссовских сплэтов, каждый из которых кодирует геометрию и внешний вид определенной точки в пространстве. В отличие от предыдущих работ, которые напрямую моделируют сплэты, мы моделируем их в латентном пространстве. Это позволяет нам добиться более компактного представления и повысить скорость рендеринга.

Ключевым компонентом LGS является новая функция потерь, которая поощряет сплэты быть согласованными во времени. Это означает, что сплэты, соответствующие одной и той же точке в сцене, должны сохранять свои характеристики с течением времени. Кроме того, мы представляем новый метод отслеживания сплэтов, который позволяет нам точно отслеживать движение сплэтов в сложных сценах.

Мы оцениваем LGS на различных наборах данных, включая данные, полученные с помощью камеры и данные, полученные с помощью датчиков LiDAR. Наши результаты показывают, что LGS превосходит существующие методы как по качеству рендеринга, так и по точности отслеживания. В частности, LGS хорошо справляется со сложными динамическими сценами, такими как сцены с быстрым движением или сложными окклюзиями.

Недовольство в google и openai: «это не то, на что мы шли»

Работники Google и OpenAI выражают недовольство текущим положением дел, заявляя, что "это не то, на что мы шли".

В статье говорится о волне обеспокоенности среди сотрудников обеих компаний, связанных с развитием и внедрением искусственного интеллекта. Работники заявляют о несоответствии между их первоначальными ожиданиями и текущей реальностью, в которой они оказались, работая над передовыми технологиями ИИ.

Сотрудники обеих компаний обеспокоены этическими аспектами разработки и внедрения ИИ, а также потенциальными последствиями для общества. Они выражают обеспокоенность по поводу отсутствия прозрачности в принятии решений и недостаточного внимания к безопасности ИИ.

Эффективное обобщенное планирование с использованием изученных моделей

В этой работе представлен подход к эффективному обобщенному планированию, основанный на изученных моделях переходов. Основная идея заключается в обучении модели, которая предсказывает результаты действий, а затем использовании этой модели для планирования оптимальных последовательностей действий.

Авторы утверждают, что существующие методы обобщенного планирования часто требуют огромного количества данных для обучения. Предложенный подход направлен на решение этой проблемы за счет использования изученных моделей переходов, которые позволяют планировать в различных средах, не требуя большого количества примеров для каждой новой среды.

Подход включает в себя обучение модели переходов, которая отображает состояние и действие в новое состояние. Эта модель обучается на наборе данных, состоящем из пар "состояние-действие-новое состояние". После обучения модель используется для планирования путем многократного применения действий и оценки результатов.

Авторы продемонстрировали эффективность своего подхода на различных задачах, включая навигацию и манипулирование объектами. Результаты показали, что предложенный метод позволяет достичь высокой производительности, используя значительно меньше данных, чем существующие подходы.

agentvista: датасет для оценки многомодальных агентов

AgentVista — это новая платформа для оценки многомодальных агентов в сложных реалистичных визуальных сценариях. Она представляет собой набор из 5000 визуальных сценариев, созданных с использованием движка Unreal Engine 5, и 100 оценочных показателей для количественной оценки производительности агентов.

Создание и характеристики датасета

Датасет AgentVista создан на основе движка Unreal Engine 5, что позволяет создавать высокореалистичные и разнообразные визуальные среды. Сценарии охватывают различные аспекты, такие как освещение, текстуры и сложные геометрические формы. Каждый сценарий разработан для проверки способности агентов к восприятию и взаимодействию с окружающим миром.

В состав датасета входят 5000 визуальных сценариев. Для количественной оценки производительности агентов используется 100 оценочных показателей. Эти показатели охватывают различные аспекты, включая точность, эффективность и надежность.

Области применения

Платформа AgentVista предназначена для оценки многомодальных агентов в различных областях, таких как робототехника, автономные транспортные средства и виртуальная реальность. Она позволяет исследователям и разработчикам количественно оценить производительность своих агентов и выявить области для улучшения.

автоматическое проектирование эвристик cvrp с помощью llm

Разработка эвристических методов для решения задачи маршрутизации транспорта с учетом ограничений по вместимости (CVRP) является сложной задачей. Традиционно, эти методы разрабатываются экспертами вручную, что требует значительных усилий и глубоких знаний в области оптимизации. В данной работе предлагается новый подход, использующий большие языковые модели (LLM) для автоматического проектирования эвристик.

Идея заключается в том, чтобы предоставить LLM описание задачи CVRP и попросить ее сгенерировать псевдокод для эвристического алгоритма. Затем этот псевдокод транслируется в исполняемый код и тестируется на различных экземплярах задачи.

Авторы экспериментально показали, что эвристики, разработанные с помощью LLM, могут достигать конкурентоспособной производительности по сравнению с традиционными эвристиками, разработанными вручную. Это демонстрирует потенциал LLM для автоматизации процесса разработки эвристик и улучшения решения сложных задач оптимизации.

geoworld: создание и анализ геометрических моделей

GeoWorld — это программное обеспечение, предназначенное для создания и анализа геометрических моделей мира. Оно позволяет пользователям строить сложные трехмерные сцены, используя различные геометрические примитивы, такие как точки, линии, полигоны и поверхности.

Программа предоставляет инструменты для преобразования этих примитивов, включая перемещение, вращение и масштабирование. Также GeoWorld поддерживает операции над геометрическими объектами, такие как объединение, вычитание и пересечение.

GeoWorld может использоваться для решения широкого спектра задач, включая визуализацию данных, моделирование физических явлений и создание компьютерных игр. Программа имеет открытую архитектуру, что позволяет расширять ее функциональность с помощью плагинов и скриптов.

В GeoWorld реализована система управления памятью, оптимизированная для работы с большими геометрическими моделями. Это позволяет пользователям создавать и анализировать сцены, содержащие миллионы полигонов.

Последовательная регрессия с квантованием остатков для точного прогнозирования

Последовательная регрессия для предсказания непрерывных значений с использованием квантования остатков

В этой работе представлен новый метод последовательной регрессии для предсказания непрерывных значений. Этот метод использует квантование остатков для улучшения точности прогнозов.

Метод

Метод последовательной регрессии работает путем последовательного предсказания значений целевой переменной, используя предыдущие предсказанные значения в качестве входных данных. Квантование остатков используется для уменьшения влияния выбросов и повышения устойчивости модели. Остатки – это разница между фактическими и предсказанными значениями. Квантование остатков включает в себя отображение этих остатков в конечное число дискретных уровней.

Эксперименты

Авторы провели эксперименты на нескольких наборах данных, чтобы оценить эффективность своего метода. Результаты показали, что метод последовательной регрессии с квантованием остатков превосходит другие методы, такие как стандартная последовательная регрессия и нейронные сети.

Выводы

Метод последовательной регрессии с квантованием остатков является эффективным подходом для предсказания непрерывных значений. Квантование остатков помогает уменьшить влияние выбросов и повысить устойчивость модели, что приводит к более точным прогнозам.

msjoe: эффективное понимание длинных видео с помощью llm

MSJoE — это новый подход к эффективному пониманию длинных видео, который одновременно развивает большую мультимодальную языковую модель (MLLM) и сэмплер. Он направлен на решение проблем, возникающих при обработке длинных видео, таких как вычислительная сложность и необходимость в больших объемах памяти.

Архитектура MSJoE

MSJoE использует совместное развитие MLLM и сэмплера для повышения эффективности. Сэмплер выбирает наиболее информативные кадры из видео, снижая вычислительную нагрузку на MLLM. MLLM, в свою очередь, использует эту информацию для лучшего понимания видеоконтента. Этот процесс происходит итеративно, где MLLM и сэмплер улучшаются друг от друга.

Эксперименты и результаты

Авторы провели эксперименты на различных наборах данных для длинных видео, включая How4, EPIC-Kitchen и длительные версии YouTube-видео. Результаты показали, что MSJoE превосходит существующие методы по нескольким метрикам, таким как точность и скорость. В частности, MSJoE демонстрирует улучшенную производительность при решении задач, требующих понимания долгосрочных зависимостей в видео. Авторы также отмечают, что MSJoE требует меньше вычислительных ресурсов, чем другие подходы.

Мультимодальное обобщение домена при небольшом количестве данных

В этой работе исследуется проблема обобщения в различных областях с использованием небольшого количества размеченных данных. Авторы предлагают новый подход к мультимодальному обобщению домена, который использует информацию из нескольких модальностей, чтобы улучшить производительность модели при переносе на новые, невидимые домены.

Авторы отмечают, что существующие методы обобщения домена часто не справляются с ситуациями, когда доступно лишь небольшое количество размеченных данных. Для решения этой проблемы они предлагают использовать технику самообучения, которая позволяет модели учиться на неразмеченных данных, чтобы улучшить свою обобщающую способность.

Предлагаемый подход включает в себя обучение модели на нескольких исходных доменах и последующую ее оценку на целевых доменах, которые не были видны во время обучения. Модель использует информацию из различных модальностей, таких как изображения и текст, чтобы лучше понять данные и сделать более точные прогнозы.

Эксперименты, проведенные авторами, показывают, что их подход превосходит другие методы обобщения домена, особенно в условиях ограниченного количества размеченных данных. Результаты демонстрируют эффективность использования мультимодальной информации и техники самообучения для улучшения обобщающей способности модели.

chain of flow: генерация 4d цифровых двойников сердца

Chain of Flow — это новый генеративный фреймворк для создания 4D цифровых двойников сердца на основе электрокардиограмм (ЭКГ). Он позволяет создавать реалистичные и персонализированные модели сердца, которые можно использовать для диагностики, прогнозирования и лечения сердечно-сосудистых заболеваний.

Фреймворк Chain of Flow состоит из трех основных этапов: генерация геометрии, моделирование движения и генерация физиологических параметров. На первом этапе, геометрия сердца создается на основе ЭКГ с использованием генеративных моделей. На втором этапе, созданная геометрия моделируется для имитации движения сердца во времени. На третьем этапе, физиологические параметры, такие как давление и кровоток, генерируются на основе геометрии и движения сердца.

Авторы статьи представили результаты экспериментов, которые показали, что Chain of Flow может генерировать 4D цифровые двойники сердца с высокой точностью и реалистичностью. Полученные результаты открывают новые возможности для персонализированной медицины и разработки новых методов лечения сердечно-сосудистых заболеваний.

Дополнительные материалы доступны по ссылке: Chain of Flow.

docker ai: инструменты для разработки и развертывания агентов

Docker AI – это набор инструментов, предназначенных для создателей агентов, предлагающий модели, инструменты и возможность переноса вычислений в облако. Он позволяет разработчикам создавать и развертывать агентов искусственного интеллекта, используя контейнеры Docker.

Модели

Docker AI включает в себя модели, которые можно использовать для различных задач, таких как обработка естественного языка и компьютерное зрение. Эти модели разработаны для работы в контейнерах Docker, что упрощает их развертывание и масштабирование.

Инструменты

Инструменты Docker AI помогают разработчикам создавать, отлаживать и развертывать агентов искусственного интеллекта. Эти инструменты включают в себя возможности для управления моделями, данными и инфраструктурой.

Облачная выгрузка

Docker AI позволяет переносить вычисления в облако, что может помочь снизить затраты и повысить производительность. Это особенно полезно для задач, требующих больших вычислительных ресурсов.

NoRA: адаптация низкоранговых матриц без линейных ограничений

NoRA — это метод, который направлен на улучшение адаптации низкоранговых матриц. Традиционные методы адаптации низкого ранга страдают от ограничений, связанных с линейностью, что приводит к ухудшению производительности при адаптации к новым задачам. NoRA решает эту проблему путем расширения многообразия, на котором выполняется адаптация.

В основе NoRA лежит идея расширения пространства адаптации, чтобы включить больше возможных решений. Это достигается с помощью нового механизма, который позволяет адаптационным матрицам выходить за рамки линейных ограничений. NoRA использует концепцию расширения многообразия, чтобы повысить гибкость и выразительность адаптационных матриц.

Эксперименты показывают, что NoRA превосходит существующие методы адаптации низкого ранга в различных задачах. NoRA демонстрирует улучшенную производительность при адаптации к новым задачам, особенно в тех случаях, когда данные ограничены или когда требуется высокая точность.

Stability AI представляет omnigaia: всемодальный ИИ

Компания Stability AI представляет OmniGAIA – новую модель искусственного интеллекта, способную воспринимать и генерировать контент, используя различные модальности, такие как текст, изображения и аудио. OmniGAIA стремится к созданию «нативных всемодальных агентов ИИ».

Модель построена на архитектуре, позволяющей ей понимать взаимосвязи между различными типами данных. Это позволяет OmniGAIA выполнять сложные задачи, требующие понимания и интеграции информации из разных источников.

OmniGAIA способна к выполнению задач, таких как визуальный вопрос-ответ, генерация изображений на основе текстовых запросов, и преобразование аудио в текст. Модель также демонстрирует способность к созданию музыки, и генерации текстовых описаний к изображениям.

Разработчики Stability AI подчеркивают, что OmniGAIA является открытой моделью, и они планируют дальнейшее развитие и совершенствование ее возможностей. OmniGAIA доступна для использования исследователям и разработчикам.

so3uformer: устойчивая к поворотам сегментация панорамных изображений

SO3UFormer: Learning Intrinsic Spherical Features for Rotation-Robust Panoramic Segmentation

В данной работе представлен SO3UFormer – новый подход к панорамной семантической сегментации, который решает проблему чувствительности к поворотам, присущую существующим методам. Авторы утверждают, что существующие модели плохо обобщаются при изменении ориентации панорамы. SO3UFormer использует трансформаторную архитектуру, специально разработанную для работы со сферическими данными.

Ключевой особенностью SO3UFormer является способность изучать внутренние сферические признаки, которые инвариантны к поворотам. Это достигается за счет использования операторов, основанных на группе вращений SO(3). Модель использует самовнимание (self-attention) для агрегирования информации из разных частей панорамы, принимая во внимание сферическую геометрию.

Авторы провели эксперименты на нескольких общедоступных наборах данных панорамных изображений, таких как ScanNet и MatterPort3D. Результаты показали, что SO3UFormer превосходит существующие методы панорамной семантической сегментации, особенно в сценариях, где ориентация панорамы меняется. Это демонстрирует повышенную устойчивость модели к поворотам и её способность к обобщению.

GrasplDP: обобщаемые захваты с использованием латентной диффузии

GraspLDP представляет собой подход к созданию обобщаемой политики захвата с использованием латентной диффузии. Авторы утверждают, что существующие методы захвата часто не обобщаются на новые объекты или среды из-за их зависимости от конкретных данных и ограниченной способности к исследованию пространства захватов.

Для решения этой проблемы GraspLDP использует латентную диффузию для изучения широкого спектра возможных захватов. Модель обучается генерировать параметры захвата из латентного пространства, что позволяет ей создавать разнообразные и реалистичные захваты.

В GraspLDP используется диффузионная модель, обученная на данных о захвате, для создания новых захватов. Модель принимает в качестве входных данных информацию об объекте и окружающей среде и генерирует параметры захвата. Затем эти параметры используются для управления роботом-манипулятором для выполнения захвата.

Авторы провели эксперименты, чтобы оценить эффективность GraspLDP. Результаты показывают, что GraspLDP превосходит существующие методы захвата в обобщении на новые объекты и среды. Также показано, что GraspLDP способен генерировать захваты, которые являются как разнообразными, так и успешными.

Tcm-diffRAG: персонализированная диагностика ТКМ с помощью графов знаний

TCM-DiffRAG – это метод дифференциальной диагностики синдромов в традиционной китайской медицине (ТКМ), основанный на графах знаний и цепочке рассуждений. Он предназначен для персонализированной диагностики.

Метод использует граф знаний ТКМ для представления медицинских знаний и цепочку рассуждений для имитации процесса принятия решений врачом. TCM-DiffRAG разработан для решения проблем, связанных с субъективностью и непоследовательностью в диагностике ТКМ.

Архитектура TCM-DiffRAG включает в себя модуль извлечения знаний, модуль построения цепочки рассуждений и модуль генерации диагностики. Модуль извлечения знаний извлекает релевантные знания из графа знаний ТКМ на основе информации о пациенте. Модуль построения цепочки рассуждений использует извлеченные знания для генерации цепочки рассуждений, имитирующей процесс принятия решений врачом. Модуль генерации диагностики использует цепочку рассуждений для генерации персонализированной диагностики.

photoagent: ai для редактирования фотографий с планированием

PhotoAgent – это агент для редактирования фотографий, использующий планирование визуальной эстетики для исследования. Он принимает на вход изображение и запрос на естественном языке, описывающий желаемый результат. PhotoAgent работает поэтапно: сначала он генерирует план редактирования, а затем последовательно применяет этот план к изображению.

План редактирования состоит из последовательности операций, таких как настройка яркости, контрастности, насыщенности и цветового баланса. Каждая операция сопровождается текстовым обоснованием, объясняющим, почему она была выбрана. PhotoAgent использует большую языковую модель (LLM) для генерации плана редактирования и для обоснования каждого шага.

В процессе редактирования PhotoAgent использует LLM для оценки промежуточного результата на каждом этапе. LLM оценивает, насколько текущее изображение соответствует желаемому результату, описанному в запросе. На основе этой оценки LLM может скорректировать план редактирования, добавляя, удаляя или изменяя операции.

Исследования показывают, что PhotoAgent позволяет создавать изображения, которые лучше соответствуют запросам пользователей по сравнению с другими методами редактирования фотографий. Это достигается за счет планирования визуальной эстетики и поэтапного подхода к редактированию, позволяющего PhotoAgent адаптироваться к изменяющимся условиям и достигать оптимальных результатов.

gsturb: устранение атмосферных искажений с помощью gaussian splatting

GSTurb – это новая техника, использующая Gaussian Splatting для смягчения искажений, вызванных атмосферной турбуленцией. Она позволяет создавать более четкие изображения, особенно в сложных условиях, таких как наблюдение удаленных объектов через атмосферу.

принцип работы

Метод GSTurb работает путем моделирования атмосферной турбулентности как плотного набора Gaussian Splats. Эти Splats представляют собой трехмерные гауссовские распределения, которые кодируют информацию о искажениях, вызванных атмосферой. Затем эти Splats используются для коррекции изображения, восстанавливая детали, размытые турбулентностью.

Техника особенно эффективна для приложений, требующих высокой четкости изображения, например, для астрономических наблюдений или съемки удаленных объектов с земли. GSTurb позволяет добиться значительного улучшения качества изображения по сравнению с традиционными методами смягчения турбулентности.

В отличие от традиционных подходов, GSTurb не требует предварительного знания характеристик атмосферной турбулентности. Вместо этого она оценивает турбулентность непосредственно из входного изображения, делая ее более гибкой и адаптивной к различным условиям.

clindet-bench: оценка суждений больших языковых моделей

ClinDet-Bench — это новая оценка, предназначенная для оценки способности больших языковых моделей (LLM) принимать суждения в клинических решениях. В отличие от существующих оценок, которые в основном сосредоточены на выявлении отказов LLM от ответа, ClinDet-Bench оценивает "определимость суждения" — то есть, является ли суждение LLM логичным и обоснованным, даже если оно не является полностью правильным.

ClinDet-Bench включает в себя 150 клинических сценариев, охватывающих различные медицинские специальности, включая кардиологию, неврологию и онкологию. Каждый сценарий представляет собой краткое описание случая пациента, за которым следует вопрос, требующий клинического суждения. Вместо простого выбора между правильным и неправильным ответом, ClinDet-Bench просит LLM предоставить обоснование для своего суждения. Затем эти обоснования оцениваются медицинскими экспертами на предмет логичности и обоснованности.

Оценка ClinDet-Bench выявляет, что даже высокопроизводительные LLM часто испытывают трудности с определимостью суждения. Хотя они могут часто предоставлять правильные ответы, их обоснования часто бывают неполными, противоречивыми или не основанными на медицинских знаниях. Результаты показывают, что способность LLM давать обоснованные суждения является важным фактором при оценке их пригодности для использования в клинической практике.

sakana ai представляет doc-to-lora и text-to-lora

Sakana AI представила Doc-to-LoRA и Text-to-LoRA – гиперсети, которые мгновенно усваивают длинный контекст и адаптируют большие языковые модели (LLM) посредством обучения без примеров на естественном языке.

Doc-to-LoRA позволяет LLM понимать и применять знания из целых документов, а Text-to-LoRA – из произвольного текста. Обе технологии используют LoRA (Low-Rank Adaptation) для эффективной адаптации LLM, не требуя полной перенастройки.

Эти гиперсети позволяют LLM решать сложные задачи, требующие понимания длинных контекстов, такие как ответы на вопросы по юридическим документам или анализ научных статей. Sakana AI утверждает, что Doc-to-LoRA и Text-to-LoRA значительно повышают точность и релевантность ответов LLM по сравнению с традиционными методами.

second-order rollout для обучения с подкреплением

Для улучшения использования данных для обучения в обучении с подкреплением (RL) предлагается метод Second-Order Rollout. Он направлен на более эффективное использование данных, генерируемых в процессе обучения.

Основная идея заключается в использовании информации второго порядка – градиентов – для более точной оценки ценности действий. Это позволяет алгоритму обучения лучше понимать, какие действия приводят к желаемым результатам и, соответственно, оптимизировать свою политику.

Традиционные методы RL часто страдают от неэффективности при использовании данных. Second-Order Rollout решает эту проблему за счет более точной оценки ценности действий и более эффективного использования доступных данных для обучения. Метод может применяться к различным задачам обучения с подкреплением и способен улучшить производительность алгоритмов RL.

Projflow: управление движением без предварительного обучения

ProjFlow — это новый метод для управления точным пространственным движением, который работает без предварительного обучения на целевых задачах. Он сочетает в себе выборку по потоку (flow matching) и метод проекции (projection sampling).

Суть ProjFlow заключается в том, чтобы отображать целевые траектории движения в пространство потоков, а затем использовать выборку по потоку для генерации движений, соответствующих этим траекториям. Метод проекции помогает обеспечить точность и стабильность процесса генерации.

В отличие от существующих методов, ProjFlow не требует обучения на каждом новом типе движения. Это делает его особенно полезным в ситуациях, когда данные ограничены или когда требуется быстро адаптироваться к новым задачам. ProjFlow способен контролировать точное пространственное движение "из коробки", без предварительной настройки.

Метод ProjFlow демонстрирует хорошие результаты в различных задачах управления движением, включая контроль манипуляторов и навигацию роботов. Он позволяет создавать плавные, точные и устойчивые траектории движения даже в сложных условиях.

amris: сегментация изображений с учетом выравнивания

AMLRIS – это метод обучения для сегментации изображений по указанию, который учитывает выравнивание. Этот метод решает проблему неточного выравнивания между текстовыми описаниями и соответствующими областями изображения.

Суть AMLRIS заключается в использовании маскированного обучения, при котором части изображения скрываются, а модель обучается предсказывать скрытые пиксели, опираясь на текстовое описание. В AMLRIS этот процесс дополнен механизмом выравнивания, который помогает модели лучше сопоставлять слова в описании с областями на изображении.

Для достижения этого выравнивания AMLRIS использует стратегию маскирования, которая ориентирована на выравнивание. Это означает, что маскирование не является случайным, а скорее направлено на области изображения, которые плохо выровнены с текстовым описанием. Это позволяет модели сосредоточиться на тех областях, где требуется наибольшее улучшение.

В результате, AMLRIS демонстрирует улучшенные результаты по сравнению с другими методами сегментации изображений по указанию, особенно в случаях, когда выравнивание между текстом и изображением является сложным.

irsde-despeckle: физически обоснованная очистка ультразвуковых изображений

IRSDE-Despeckle – это диффузионная модель, основанная на физических принципах, предназначенная для общей очистки ультразвуковых изображений от шума. Модель решает проблему зернистости, часто встречающейся в ультразвуковых изображениях, которая затрудняет диагностику.

IRSDE-Despeckle разработана для обобщения на различные типы ультразвуковых изображений и использует физическую модель распространения ультразвука для повышения качества очистки изображений. Авторы утверждают, что их подход превосходит существующие методы очистки, особенно в сложных сценариях.

Модель обучена на большом наборе данных ультразвуковых изображений и продемонстрировала хорошие результаты на различных наборах данных, включая изображения из разных модальностей и органов. Эффективность IRSDE-Despeckle была оценена количественно и качественно, показывая улучшение визуального качества и точности диагностических особенностей.

IRSDE-Despeckle

Knob: управляемая структура для интерпретируемых нейронных сетей

В этой работе представлена Knob, новая управляющая структура, вдохновленная физикой, для нейронных сетей. Она создана для того, чтобы сделать динамику нейронных сетей более интерпретируемой и управляемой.

Knob работает за счет введения "вращающегося" вентиля, который модулирует поток информации через нейрон. Вентиль работает как механический клапан, контролирующий поток жидкости, регулируя активации нейронов. Этот механизм позволяет исследователям напрямую влиять на поведение сети и лучше понимать, как она принимает решения.

В статье описаны эксперименты, показывающие, что Knob может успешно применяться к различным архитектурам нейронных сетей, включая полносвязные сети и сверточные нейронные сети. Результаты показывают, что Knob может улучшить производительность сети, повысить ее устойчивость и улучшить интерпретируемость.

Авторы также представили визуализацию, которая демонстрирует, как Knob влияет на динамику сети. Эта визуализация позволяет исследователям увидеть, какие нейроны и соединения наиболее важны для принятия решений сетью.

В заключение, Knob представляет собой многообещающий новый инструмент для изучения и контроля динамики нейронных сетей. Он может помочь исследователям создавать более надежные, интерпретируемые и управляемые системы искусственного интеллекта.

Mobilitybench: новый бенчмарк для оценки ai-агентов

Мобильность становится все более важной для систем искусственного интеллекта, но оценка агентов планирования маршрутов в реалистичных условиях остается сложной задачей. Чтобы решить эту проблему, мы представляем MobilityBench, новый бенчмарк для оценки агентов планирования маршрутов в реальных сценариях мобильности.

MobilityBench: новый бенчмарк

MobilityBench использует данные о трафике из реального мира и позволяет создавать различные сценарии, включая пробки, перекрытия дорог и изменения дорожных условий. Бенчмарк охватывает несколько городов и включает в себя данные о различных видах транспорта, таких как автомобили, велосипеды и пешеходы. Агенты оцениваются по различным показателям, таким как время в пути, пройденное расстояние и соблюдение правил дорожного движения.

Мы предоставили базовые реализации агентов, чтобы облегчить начало работы с MobilityBench, и надеемся, что он поможет продвинуть исследования в области планирования маршрутов и мобильности. Доступ к бенчмарку и дополнительная информация доступны по ссылке MobilityBench.

diffbmp: дифференцируемый рендеринг с растровыми примитивами

DiffBMP — это новый метод дифференцируемого рендеринга, который использует примитивы растровой графики. Он позволяет оптимизировать представления сцены на основе рендеринга, без необходимости ручного создания сложных шейдеров.

Метод основан на представлении сцены в виде набора растровых примитивов, таких как точки, линии, треугольники и многоугольники. Эти примитивы параметризуются и оптимизируются с использованием дифференцируемого рендерера.

DiffBMP обеспечивает высокую скорость рендеринга и позволяет создавать реалистичные изображения. Он может быть использован для различных задач, таких как реконструкция сцены, инверсия рендеринга и генерация изображений.

Авторы демонстрируют применение DiffBMP для реконструкции сцены по одной фотографии и для инверсии рендеринга для создания новых видов сцены. Также представлен пример генерации изображений с использованием DiffBMP.

DiffBMP paper DiffBMP project