Поделиться

Whisper — нейросеть с ИИ для преобразования голоса в текст. Доступна через API на Replicate.

Область применения : Здоровье

Преобразование : Аудио в текст

Задача : Преобразовать речь в текст


Подробнее о этой нейросети

Whisper — нейросеть, использующая искусственный интеллект для преобразования аудио с голосом в текст. Она обладает слуховой системой со встроенными наушниками и уникальным интеллектом Whisper Brain. Данная нейросеть доступна для использования с помощью API на сайте Replicate. Транскрипция аудио в текст осуществляется на основе модели распознавания речи. Для работы с Whisper необходимо загрузить аудиофайл и выбрать формат транскрипции. Модель поддерживает только Whisper-large-v3. Также можно указать язык аудио, установить температуру для выборки и использовать дополнительные параметры для декодирования. Предсказания обычно завершаются в течение 74 секунд. Запуск модели Whisper осуществляется на аппаратной платформе Nvidia T4 GPU.

Поделиться