Редактирование изображений по инструкции с помощью llm и диффузионных моделей

Редактирование изображений на основе инструкций – сложная задача, требующая не только понимания инструкций, но и планирования, рассуждений и генерации, чтобы обеспечить реалистичные и последовательные изменения. В этой работе мы представляем новый фреймворк для редактирования изображений на основе инструкций, который объединяет большие языковые модели (LLM) с диффузионными моделями.

Наша система состоит из трех основных этапов: планирование, рассуждение и генерация. На этапе планирования LLM используется для разложения инструкции высокого уровня в последовательность подзадач, каждая из которых соответствует определенному изменению изображения. На этапе рассуждения LLM размышляет над каждой подзадачей и генерирует соответствующую спецификацию для диффузионной модели. Наконец, на этапе генерации диффузионная модель используется для выполнения спецификации и изменения изображения.

Чтобы улучшить производительность нашей системы, мы представляем несколько новых техник. Во-первых, мы представляем "визуальный план", который обеспечивает LLM визуальную информацию о текущем состоянии изображения во время планирования. Во-вторых, мы представляем "обратную связь с диффузией", которая позволяет диффузионной модели сообщать о своих успехах и неудачах обратно LLM, что позволяет LLM корректировать свои планы соответствующим образом.

Наши эксперименты показывают, что наша система превосходит существующие методы редактирования изображений на основе инструкций на нескольких наборах данных. Мы показываем, что наша система способна выполнять сложные операции редактирования, такие как "измените цвет неба на оранжевый и добавьте солнце" и "замените собаку кошкой и добавьте шляпу на кошку". Мы также проводим качественный анализ нашей системы и выявляем области для будущих улучшений.

Мы представляем фреймворк, который объединяет LLM и диффузионные модели для редактирования изображений на основе инструкций. Наш фреймворк состоит из этапов планирования, рассуждения и генерации. Эксперименты показывают, что наша система превосходит существующие методы и способна выполнять сложные операции редактирования. демонстрация проекта.

НАВИГАЦИЯ

МЕНЮ

Похожие новости

Ускорение обучения LLM: новый метод от MIT и NVIDIA

Контекстное проектирование LLM: Когда 'помощь' вредит

Explore-on-Graph: Новая архитектура для рассуждений LLM

MovieTeller: Автоматическое суммирование фильмов с помощью LLM

LM Link: Бесшовная удалённая инференция LLM с помощью Tailscale

Иерархический планировщик на основе LLM для роботов