Искусственный интеллект: текущее состояние и новые исследования

Искусственный интеллект в настоящее время занимает такое же место в умах людей, как "облако" пятнадцать лет назад или интернет в целом двадцать пять лет назад.

Статистические запросы для обучения сглаженных агностических моделей

Изучается сложность обучения сглаженных агностических моделей, недавно представленных в работе [CKKMS24], в которых обучающийся соревнуется с лучшим классификатором в целевом классе при небольших гауссовских возмущениях входных данных. Особое внимание уделяется прототиповой задаче агностического обучения полупространств при подгауссовских распределениях в сглаженной модели. Лучшая известная верхняя граница для этой проблемы основана на $L_1$-полиномиальной регрессии и имеет сложность $d^{\tilde{O}(1/σ^2) \log(1/ε)}$, где $σ$ – параметр сглаживания, а $ε$ – избыточная ошибка. Основной результат исследования – статистическая граница запросов (SQ), которая предоставляет формальное доказательство того, что эта верхняя граница близка к оптимальной.

В частности, показано, что любой SQ-алгоритм для обучения сглаженных агностических полупространств требует сложности $d^{Ω(1/σ^{2}+\log(1/ε))}$ даже для гауссовских маргиналов. Это первая нетривиальная граница сложности для этой задачи, почти соответствующая известной верхней границе. Применение $L_1$-полиномиальной регрессии к сглаженной версии функции является по сути оптимальным. Методы включают поиск распределения, сложного для сопоставления моментов, посредством двойственности линейного программирования. Эта двойственная программа точно соответствует поиску полинома низкого порядка, приближающего сглаженную версию целевой функции. Явная нижняя граница SQ получена благодаря доказательству нижних границ для степени этого приближения для класса полупространств. Читать PDF Посмотреть на Hugging Face

Генерация человеческого видео из одного изображения с контролем 3D позы и точки обзора

Недавние методы диффузии добились значительного прогресса в генерации видео из одиночных изображений благодаря своим мощным возможностям визуализации. Однако проблемы сохраняются в синтезе изображения в видео, особенно в генерации человеческого видео, где определение складок одежды, зависящих от движения и согласованных с точкой обзора, из одного изображения остается сложной проблемой. Представлена модель латентной диффузии видео Human Video Generation in 4D (HVG), способная генерировать высококачественные, многоточечные, пространственно-временные согласованные человеческие видео из одного изображения с контролем 3D позы и точки обзора. HVG достигает этого благодаря трем ключевым элементам: (i) Модуляция сочлененной позы, которая захватывает анатомические отношения 3D-соединений через новую карту костей двойного измерения и решает проблемы самозатенения между различными точками обзора путем введения 3D-информации; (ii) Согласование точки обзора и времени, которое обеспечивает согласованность многоточечного обзора и выравнивание между опорным изображением и последовательностями поз для стабильности кадр за кадром; и (iii) Прогрессивная пространственно-временная выборка с временным выравниванием для поддержания плавных переходов в длинных многоточечных анимациях. Эксперименты показывают, что HVG превосходит существующие методы при создании высококачественных 4D человеческих видео из различных человеческих изображений и входных данных о позе.

Искусственный интеллект: текущее состояние и новые исследования

Статистические запросы для обучения сглаженных агностических моделей

Генерация человеческого видео из одного изображения с контролем 3D позы и точки обзора

Похожие статьи

Многоуровневые причинно-следственные вложения для машинного обучения

ИИ, управляющий неопределенностью: новый подход к обучению

ai frameworks: circle, neural operators, and more

univbench: унифицированная оценка видео-основанных моделей

масштабируемые пайплайны аналитики и машинного обучения с vaex

Primary-fine decoupling для улучшения робототехнической имитации