Обучение модели text-to-image за 24 часа с dream booth

В этой части PRX мы обучим модель преобразования текста в изображение всего за 24 часа. Мы будем использовать предварительно обученную модель Stable Diffusion v1.5 и набор данных LAION-5B, который содержит более 5 миллиардов пар текст-изображение.

Мы будем использовать метод, называемый DreamBooth, который позволяет нам настраивать модель Stable Diffusion на новые концепции всего за несколько шагов. DreamBooth работает путем создания копий входного текста и замены ключевого слова на новое. Затем модель обучается на этих модифицированных данных, чтобы она могла генерировать изображения нового концепта.

Для обучения нашей модели мы будем использовать одну видеокарту NVIDIA RTX 3090. Обучение заняло около 24 часов. Мы использовали размер пакета 1 и скорость обучения 5e-6.

После обучения модели мы смогли генерировать изображения нового концепта, просто введя его имя. Результаты были впечатляющими, и модель могла генерировать изображения высокого качества, которые соответствовали введенному тексту.

Мы опубликовали свой код и модель на Hugging Face: https://huggingface.co/spaces/stabilityai/sdxl-turbo. Вы можете использовать его, чтобы обучить собственные модели преобразования текста в изображение.

Похожие новости

Ускорение обучения LLM: новый метод от MIT и NVIDIA

Редактирование изображений по инструкции с помощью llm и диффузионных моделей

Смесь Экспертов (MoE) в Трансформерах: Масштабирование и Эффективность

Explore-on-Graph: Новая архитектура для рассуждений LLM

Новый метод ускоряет обучение больших языковых моделей

Контекстное проектирование LLM: Когда 'помощь' вредит