Область применения : Дизайн, Иллюстрация, Электронная коммерция
Преобразование : Текст в изображение
Задача : Создать изображение
Подробнее о этой нейросети
Модель Muse представляет собой нейросеть, которая преобразует текстовую информацию в изображения. Она достигает высокой производительности в генерации изображений, при этом значительно более эффективна, чем другие модели, использующие двойственный или авторегрессивный подход.
Обучение Muse проводится на задаче маскированного моделирования в дискретном пространстве токенов: модель обучается предсказывать случайно маскированные токены изображения, используя эмбеддинги текста, полученные из предварительно обученной языковой модели. По сравнению с моделями, основанными на диффузии в пространстве пикселей, такими как Imagen и DALL-E 2, Muse значительно более эффективна, так как работает с дискретными токенами и требует меньшего количества итераций выборки. По сравнению с авторегрессивными моделями, такими как Parti, Muse более эффективна благодаря использованию параллельного декодирования.
