Область применения : Дизайн, Иллюстрация, Реклама и SMM, Разработка игр, Анимация, Электронная коммерция, Производство фильмов
Преобразование : Текст в видео
Задача : Создать видео
Подробнее о этой нейросети
MagicVideo — эффективная система генерации видео на основе моделей скрытой диффузии с использованием текстового описания. Она позволяет создавать фотореалистичные видеоролики с высокой релевантностью к содержанию текста. В отличие от недавно представленных моделей генерации видео на основе моделей диффузии с применением каскадной супер-разрешающей конвейера, MagicVideo способна генерировать видеокадры с высоким разрешением в рамках одной модели. Чтобы максимально использовать предварительно известную информацию из задач генерации изображений по тексту, большая часть операторов свертки оставлена в двумерном пространстве, а для каждой двумерной свертки используется уникальный адаптер для изучения специфических характеристик каждого кадра. Временная информация изучается с помощью нового модуля направленного временного внимания. Он используется для захвата взаимосвязи между кадрами и генерации последовательности кадров с временной смысловой цепочкой. Весь процесс генерации осуществляется в низкоразмерном латентном пространстве предварительно обученного вариационного автокодировщика. Этот подход значительно ускоряет обучение модели генерации видео и сокращает время выборки в 80 раз по сравнению с традиционными моделями диффузии видео, основанными на DDPM. Мы показываем, что MagicVideo может генерировать видеоролики с высоким пространственным разрешением за один шаг без использования каскадного конвейера диффузии. MagicVideo способна генерировать как реалистичное видео, так и мнимое содержание в фотореалистичном стиле с передовым балансом между качеством и вычислительной стоимостью. Конечная модель включает ключевое преобразование, интерполяцию кадров и суперразрешение. Для ключевого преобразования мы представляем, как мы изменяем блоки двумерной свертки с предварительно обученными весами на наборе данных текст-изображение для адаптации к трехмерному видео набору данных с использованием нового адаптерного модуля. Затем мы представляем новый модуль направленного самовнимания, который обеспечивает возможность модели изучения движений между кадрами в видеоролике.
