1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/mirrors-real-time-voice-cloning

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Реальное клонирование голоса в реальном времени

Этот репозиторий представляет собой реализацию Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) с вокодером, работающим в реальном времени. Это была моя магистерская диссертация.

SV2TTS — это фреймворк глубокого обучения, состоящий из трёх этапов. На первом этапе создаётся цифровое представление голоса на основе нескольких секунд аудио. На втором и третьем этапах это представление используется в качестве эталона для генерации речи по произвольному тексту.

Видеодемонстрация (нажмите на картинку):

Демонстрация инструментария

Реализованные работы

URL Назначение Название Источник реализации
1806.04558 SV2TTS Transfer Learning from Speaker Verification to Multispeaker Text-to-Speech Synthesis Этот репозиторий
1802.08435 WaveRNN (вокодер) Efficient Neural Audio Synthesis fatchord/WaveRNN
1703.10135 Tacotron (синтезатор) Tacotron: Towards End-to-End Speech Synthesis fatchord/WaveRNN
1710.10467 GE2E (кодировщик) Generalized End-To-End Loss for Speaker Verification Этот репозиторий

Будьте внимательны

Как и всё в глубоком обучении, этот репозиторий быстро устаревает. Многие SaaS-приложения (часто платные) дадут вам лучшее качество звука, чем этот репозиторий. Если вы ищете решение с открытым исходным кодом и высоким качеством голоса:

  • Ознакомьтесь с paperswithcode для других репозиториев и последних исследований в области синтеза речи.
  • Посмотрите CoquiTTS для репозитория с лучшим качеством клонирования голоса и большим количеством функций.
  • Проверьте MetaVoice-1B для большой модели голоса с высоким качеством звука.

Настройка

1. Установите требования

  1. Поддерживаются Windows и Linux. Для обучения и скорости вывода рекомендуется использовать GPU, но это не обязательно.
  2. Рекомендуется Python 3.7. Python 3.5 или выше должен работать, но вам, вероятно, придётся настроить версии зависимостей. Я рекомендую настроить виртуальную среду с помощью venv, но это необязательно.
  3. Установите ffmpeg. Это необходимо для чтения аудиофайлов.
  4. Установите PyTorch. Выберите последнюю стабильную версию, вашу операционную систему, ваш менеджер пакетов (по умолчанию pip) и, наконец, выберите любую из предложенных версий CUDA, если у вас есть графический процессор, в противном случае выберите CPU. Запустите данную команду.
  5. Установите оставшиеся требования с помощью команды pip install -r requirements.txt.

2. (Необязательно) Загрузите предварительно обученные модели

Предварительно обученные модели теперь загружаются автоматически. Если это не работает для вас, вы можете вручную загрузить их здесь.

3. (Необязательно) Протестируйте конфигурацию

Прежде чем загружать какой-либо набор данных, вы можете начать с тестирования конфигурации с помощью:

python demo_cli.py

Если все тесты пройдены, всё готово к работе.

4. (Необязательно) Скачайте наборы данных

Для работы с инструментарием я рекомендую скачать только LibriSpeech/train-clean-100. Извлеките содержимое как <datasets_root>/LibriSpeech/train-clean-100, где <datasets_root> — каталог по вашему выбору. Другие наборы данных поддерживаются в инструментарии, см. здесь. Вы можете не скачивать какой-либо набор данных, но тогда вам понадобятся собственные данные в виде аудиофайлов или вам придётся записывать их с помощью инструментария.

5. Запустите инструментарий

Затем вы можете попробовать инструментарий: python demo_toolbox.py -d <datasets_root>
или
python demo_toolbox.py

в зависимости от того, загрузили ли вы какие-либо наборы данных. Если вы используете X-сервер или у вас возникает ошибка Aborted (core dumped), см. эту проблему.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Реалтайм войс клонинг — это трансферное обучение от верификации спикера к мультиспикерному тексту. Развернуть Свернуть
MIT
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/mirrors-real-time-voice-cloning.git
git@api.gitlife.ru:oschina-mirror/mirrors-real-time-voice-cloning.git
oschina-mirror
mirrors-real-time-voice-cloning
mirrors-real-time-voice-cloning
master