Поделиться

Генерация звука на основе видеосигнала с помощью новой нейросети SpecVQGAN, искусственный интеллект и искусственные нейросети.

Область применения : Дизайн, Саунд-дизайн

Преобразование : Видео в аудио

Задача : Создать аудио


Подробнее о этой нейросети

SpecVQGAN — новая нейросеть, которая позволяет генерировать звуки и аудио на основе видеосигналов. Она использует визуальные кадры, извлеченные из произвольного видео, для создания звукового сопровождения. С помощью этой модели можно экстрагировать визуальные особенности и отображать соответствующие кадры. По умолчанию выбираются первые 10 секунд видео, но если нужно начать с другого момента времени, можно указать параметр start_sec. Если видео короче 10 секунд, оно будет повторяться до достижения необходимой длительности. Если видео содержит аудио, модель извлечет мел-спектрограмму из аудиодорожки с использованием того же предварительного обработчика, что и в наших экспериментах. Это также полезно, если планируется использовать половину кодов истинных данных для начального выбора генерируемого звука. Данная нейросеть предоставляет возможность настройки параметров и является инновационным инструментом в области искусственного интеллекта и генерации звука на основе видеосигналов.

Поделиться