Область применения : Дизайн, Саунд-дизайн
Преобразование : Видео в аудио
Задача : Создать аудио
Подробнее о этой нейросети
SpecVQGAN — новая нейросеть, которая позволяет генерировать звуки и аудио на основе видеосигналов. Она использует визуальные кадры, извлеченные из произвольного видео, для создания звукового сопровождения. С помощью этой модели можно экстрагировать визуальные особенности и отображать соответствующие кадры. По умолчанию выбираются первые 10 секунд видео, но если нужно начать с другого момента времени, можно указать параметр start_sec. Если видео короче 10 секунд, оно будет повторяться до достижения необходимой длительности. Если видео содержит аудио, модель извлечет мел-спектрограмму из аудиодорожки с использованием того же предварительного обработчика, что и в наших экспериментах. Это также полезно, если планируется использовать половину кодов истинных данных для начального выбора генерируемого звука. Данная нейросеть предоставляет возможность настройки параметров и является инновационным инструментом в области искусственного интеллекта и генерации звука на основе видеосигналов.
