Реальное клонирование голоса в реальном времени

Этот репозиторий представляет собой реализацию Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) с вокодером, работающим в реальном времени. Это была моя магистерская диссертация.

SV2TTS — это фреймворк глубокого обучения, состоящий из трёх этапов. На первом этапе создаётся цифровое представление голоса на основе нескольких секунд аудио. На втором и третьем этапах это представление используется в качестве эталона для генерации речи по произвольному тексту.

Видеодемонстрация (нажмите на картинку):

Реализованные работы

URL	Назначение	Название	Источник реализации
1806.04558	SV2TTS	Transfer Learning from Speaker Verification to Multispeaker Text-to-Speech Synthesis	Этот репозиторий
1802.08435	WaveRNN (вокодер)	Efficient Neural Audio Synthesis	fatchord/WaveRNN
1703.10135	Tacotron (синтезатор)	Tacotron: Towards End-to-End Speech Synthesis	fatchord/WaveRNN
1710.10467	GE2E (кодировщик)	Generalized End-To-End Loss for Speaker Verification	Этот репозиторий

Будьте внимательны

Как и всё в глубоком обучении, этот репозиторий быстро устаревает. Многие SaaS-приложения (часто платные) дадут вам лучшее качество звука, чем этот репозиторий. Если вы ищете решение с открытым исходным кодом и высоким качеством голоса:

Ознакомьтесь с paperswithcode для других репозиториев и последних исследований в области синтеза речи.
Посмотрите CoquiTTS для репозитория с лучшим качеством клонирования голоса и большим количеством функций.
Проверьте MetaVoice-1B для большой модели голоса с высоким качеством звука.

Настройка

1. Установите требования

Поддерживаются Windows и Linux. Для обучения и скорости вывода рекомендуется использовать GPU, но это не обязательно.
Рекомендуется Python 3.7. Python 3.5 или выше должен работать, но вам, вероятно, придётся настроить версии зависимостей. Я рекомендую настроить виртуальную среду с помощью venv, но это необязательно.
Установите ffmpeg. Это необходимо для чтения аудиофайлов.
Установите PyTorch. Выберите последнюю стабильную версию, вашу операционную систему, ваш менеджер пакетов (по умолчанию pip) и, наконец, выберите любую из предложенных версий CUDA, если у вас есть графический процессор, в противном случае выберите CPU. Запустите данную команду.
Установите оставшиеся требования с помощью команды pip install -r requirements.txt.

2. (Необязательно) Загрузите предварительно обученные модели

Предварительно обученные модели теперь загружаются автоматически. Если это не работает для вас, вы можете вручную загрузить их здесь.

3. (Необязательно) Протестируйте конфигурацию

Прежде чем загружать какой-либо набор данных, вы можете начать с тестирования конфигурации с помощью:

python demo_cli.py

Если все тесты пройдены, всё готово к работе.

4. (Необязательно) Скачайте наборы данных

Для работы с инструментарием я рекомендую скачать только LibriSpeech/train-clean-100. Извлеките содержимое как <datasets_root>/LibriSpeech/train-clean-100, где <datasets_root> — каталог по вашему выбору. Другие наборы данных поддерживаются в инструментарии, см. здесь. Вы можете не скачивать какой-либо набор данных, но тогда вам понадобятся собственные данные в виде аудиофайлов или вам придётся записывать их с помощью инструментария.

5. Запустите инструментарий

Затем вы можете попробовать инструментарий: python demo_toolbox.py -d <datasets_root>
или
python demo_toolbox.py

в зависимости от того, загрузили ли вы какие-либо наборы данных. Если вы используете X-сервер или у вас возникает ошибка Aborted (core dumped), см. эту проблему.

OSCHINA-MIRROR/mirrors-real-time-voice-cloning

Реальное клонирование голоса в реальном времени

Реализованные работы

Будьте внимательны

Настройка

1. Установите требования

2. (Необязательно) Загрузите предварительно обученные модели

3. (Необязательно) Протестируйте конфигурацию

4. (Необязательно) Скачайте наборы данных

5. Запустите инструментарий

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/mirrors-real-time-voice-cloning .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Реальное клонирование голоса в реальном времени

Реализованные работы

Будьте внимательны

Настройка

1. Установите требования

2. (Необязательно) Загрузите предварительно обученные модели

3. (Необязательно) Протестируйте конфигурацию

4. (Необязательно) Скачайте наборы данных

5. Запустите инструментарий

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/mirrors-real-time-voice-cloning