Этот репозиторий представляет собой реализацию Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) с вокодером, работающим в реальном времени. Это была моя магистерская диссертация.
SV2TTS — это фреймворк глубокого обучения, состоящий из трёх этапов. На первом этапе создаётся цифровое представление голоса на основе нескольких секунд аудио. На втором и третьем этапах это представление используется в качестве эталона для генерации речи по произвольному тексту.
Видеодемонстрация (нажмите на картинку):
URL | Назначение | Название | Источник реализации |
---|---|---|---|
1806.04558 | SV2TTS | Transfer Learning from Speaker Verification to Multispeaker Text-to-Speech Synthesis | Этот репозиторий |
1802.08435 | WaveRNN (вокодер) | Efficient Neural Audio Synthesis | fatchord/WaveRNN |
1703.10135 | Tacotron (синтезатор) | Tacotron: Towards End-to-End Speech Synthesis | fatchord/WaveRNN |
1710.10467 | GE2E (кодировщик) | Generalized End-To-End Loss for Speaker Verification | Этот репозиторий |
Как и всё в глубоком обучении, этот репозиторий быстро устаревает. Многие SaaS-приложения (часто платные) дадут вам лучшее качество звука, чем этот репозиторий. Если вы ищете решение с открытым исходным кодом и высоким качеством голоса:
venv
, но это необязательно.pip install -r requirements.txt
.Предварительно обученные модели теперь загружаются автоматически. Если это не работает для вас, вы можете вручную загрузить их здесь.
Прежде чем загружать какой-либо набор данных, вы можете начать с тестирования конфигурации с помощью:
python demo_cli.py
Если все тесты пройдены, всё готово к работе.
Для работы с инструментарием я рекомендую скачать только LibriSpeech/train-clean-100
. Извлеките содержимое как <datasets_root>/LibriSpeech/train-clean-100
, где <datasets_root>
— каталог по вашему выбору. Другие наборы данных поддерживаются в инструментарии, см. здесь. Вы можете не скачивать какой-либо набор данных, но тогда вам понадобятся собственные данные в виде аудиофайлов или вам придётся записывать их с помощью инструментария.
Затем вы можете попробовать инструментарий: python demo_toolbox.py -d <datasets_root>
или
python demo_toolbox.py
в зависимости от того, загрузили ли вы какие-либо наборы данных. Если вы используете X-сервер или у вас возникает ошибка Aborted (core dumped)
, см. эту проблему.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )