LingBot-VLA от Ant Group: AI-модель для управления роботами с двумя руками и ...

LingBot-VLA от Ant Group: AI-модель для управления роботами с двумя руками

LingBot-VLA – это основа для создания систем управления манипуляторами, способная работать с различными роботами с двумя руками. Модель обучена на 20 тысячах часов данных, полученных при телеуправлении девятью различными роботами, и протестирована на большом наборе задач GM-100 на трех платформах.\r \r Особое внимание уделено обобщению данных, эффективности дообучения и высокой скорости обучения на стандартных графических процессорах. LingBot-VLA интегрирует модуль LingBot-Depth для лучшего понимания глубины объектов, что особенно важно для таких задач, как вставка, складывание и работа с захватом.\r \r Модель демонстрирует высокую точность и эффективность, превосходя другие системы в задачах манипулирования в реальном мире. Код проекта доступен в открытом доступе.

Исследование надёжности метрики оценки качества синтетических изображений

Учёные провели исследование, чтобы оценить, насколько хорошо метрика Fréchet Inception Distance (FID) определяет качество сгенерированных медицинских изображений. FID обычно использует модель InceptionV3, обученную на обычных фотографиях, для анализа характеристик данных. Известно, что это делает её менее эффективной для медицинских снимков.\r \r В ходе исследования применялся метод Монте-Карло для расчёта отклонений в показателях FID и оценки отклонений в скрытых представлениях признаков. Результаты показали, что величина этих отклонений связана с тем, насколько новые данные отличаются от тех, на которых обучалась модель. Это даёт понимание, насколько надёжно FID может использоваться для оценки качества изображений.\r \r Полученные данные позволяют лучше понять ограничения использования метрики FID и предложить пути её улучшения для работы с медицинскими данными. Исследование может помочь в разработке более точных методов оценки качества синтетических изображений, используемых в медицине.

Разложение и рекомбинация данных с помощью диффузионных моделей

Ученые разработали новый метод разложения сложных данных на отдельные компоненты и их последующего комбинирования для создания новых примеров. Исследование проведено в контексте диффузионных моделей, которые изучают структурированные скрытые пространства без явного контроля над отдельными факторами.\r \r В изображениях такие факторы могут отражать фон, освещение и атрибуты объектов. В видео с роботами – различные компоненты движения. Для повышения качества как выявления факторов, так и генерации на их основе, предложен подход с использованием состязательного обучения. Дискриминатор обучается отличать исходные данные от тех, что получены путем комбинирования факторов из разных источников.\r \r Обучение генератора обманывать дискриминатор помогает достичь большей физической и семантической согласованности при рекомбинации. Метод показал лучшие результаты на наборах данных CelebA-HQ, Virtual KITTI, CLEVR и Falcor3D, улучшив показатели FID и степень разделения признаков. Также продемонстрировано применение для роботизированных видео, где рекомбинация движений позволяет генерировать разнообразные последовательности и расширить область поиска на бенчмарке LIBERO.

Новый способ измерения схожести данных при переносе знаний

Ученые представили новый показатель – Cross-Fusion Distance (CFD), предназначенный для оценки степени объединения и разделения групп данных в пространстве представлений. Это особенно важно при обучении моделей, когда данные из разных источников (доменов) используются вместе.\r \r Суть CFD в том, что он учитывает только те факторы, которые действительно влияют на "слияние" данных – например, изменение их взаимного расположения. При этом показатель не чувствителен к глобальному масштабированию или небольшим изменениям в выборке данных, которые не влияют на общую картину. Существующие методы часто путают эти факторы, давая неточные результаты.\r \r CFD позволяет более точно оценивать, насколько хорошо модель переносит знания из одного домена в другой, и как это отражается на её способности обобщать данные. Эксперименты показали, что CFD лучше соответствует реальному снижению точности модели при доменном сдвиге, чем традиционные метрики.

SICL-AT: Новый способ адаптации звуковых LLM к задачам

Большие языковые модели, работающие со звуком, показывают хорошие результаты в различных задачах, связанных с речью и аудио. Однако они часто испытывают трудности при работе с задачами, для которых доступно мало данных или задачами, которые отличаются от тех, на которых они обучались. Прямая тонкая настройка в таких случаях может быть неэффективной.\r \r Вместо этого, обучение "в контексте" (In-Context Learning, ICL) позволяет адаптировать звуковые LLM без дополнительного обучения, используя несколько примеров из целевой области. Исследователи показали, что стандартный ICL улучшает результаты моделей при решении различных задач.\r \r Они предложили новый метод — SICL-AT (Speech In-Context Learning Adaptation Training), который использует большое количество доступных данных для обучения и укрепления способности модели к обучению в контексте. Этот подход улучшает результаты не только для речи, но и для понимания и анализа аудио в целом. Эксперименты показали, что SICL-AT превосходит прямую тонкую настройку при ограниченном объеме данных.

Экзистенциальный риск: почему ученые пытаются определить сознание

Ученые бьют тревогу: стремительное развитие искусственного интеллекта и нейротехнологий опережает наше понимание сознания, создавая серьезные этические проблемы. Новые исследования показывают, что разработка научных тестов для определения осознанности может кардинально изменить медицину, отношение к животным, законодательство и развитие ИИ.\r \r Определение сознания в машинах, искусственно выращенных мозговых структурах или пациентах с нарушениями может заставить общество пересмотреть понятия ответственности, прав и моральных границ. Вопрос о том, что значит быть сознательным, никогда не был настолько актуальным и одновременно тревожным.\r \r Исследователи подчеркивают необходимость разработки объективных критериев оценки сознания, чтобы избежать потенциальных злоупотреблений и обеспечить этичное развитие новых технологий.