Структура файлов (для разработчиков):
├─archived_untest_files — устаревшие файлы
├─encoder — модель encoder
│ ├─data_objects
│ └─saved_models — предварительно обученные модели
├─samples — образцы аудиозаписей
├─synthesizer — модель synthesizer
│ ├─models
│ ├─saved_models — предварительно обученные модели
│ └─utils — библиотека инструментов
├─toolbox — графический набор инструментов
├─utils — библиотека инструментов
├─vocoder — модель vocoder (в настоящее время включает hifi-gan и wavrnn)
│ ├─hifigan
│ ├─saved_models — предварительно обученные модели
│ └─wavernn
└─web
├─api
│ └─Web-интерфейс
├─config
│ └─ Web-конфигурационный файл
├─static — статические скрипты переднего плана
│ └─js
├─templates — шаблоны переднего плана
└─__init__.py — файл входа в Web
Ссылки и литература:
Данный репозиторий изначально был ответвлением от Real-Time-Voice-Cloning, за что автор выражает благодарность.
URL | Назначение | Заголовок | Реализация исходного кода |
---|---|---|---|
1803.09017 | GlobalStyleToken (synthesizer) | Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis | Данный репозиторий |
2010.05646 | HiFi-GAN (vocoder) | Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis | Данный репозиторий |
1806.04558 | SV2TTS | Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis | Данный репозиторий |
1802.08435 | WaveRNN (vocoder) | Efficient Neural Audio Synthesis | fatchord/WaveRNN |
1703.10135 | Tacotron (synthesizer) | Tacotron: Towards End-to-End Speech Synthesis | fatchord/WaveRNN |
1710.10467 | GE2E (encoder) | Generalized End-To-End Loss for Speaker Verification | Данный репозиторий |
Часто задаваемые вопросы (FAQ):
Набор данных | OpenSLR-адрес | Другие источники (Google Drive, Baidu Cloud и т. д.) |
---|---|---|
aidatatang_200zh | OpenSLR | Google Drive |
magicdata | OpenSLR | Google Drive (Dev set) |
aishell3 | OpenSLR | Google Drive |
data_aishell | OpenSLR |
После распаковки aidatatang_200zh необходимо также распаковать
aidatatang_200zh\corpus\train
<datasets_root>
?Если путь к данным равен D:\data\aidatatang_200zh
, то <datasets_root>
равен D:\data
.
При обучении синтезатора: уменьшите параметр batch_size в synthesizer/hparams.py
.
// До изменения
tts_schedule = [(2, 1e-3, 20_000, 12), # Progressive training schedule
(2, 5e-4, 40_000, 12), # (r, lr, step, batch_size)
(2, 2e-4, 80_000, 12), #
(2, 1e-4, 160_000, 12), # r = reduction factor (# of mel frames
(2, 3e-5, 320_000, 12), # synthesized for each decoder iteration)
(2, 1e-5, 640_000, 12)], # lr = learning rate
// После изменения
tts_schedule = [(2, 1e-3, 20_000, 8), # Progressive training schedule
(2, 5e-4, 40_000, 8), # (r, lr, step, batch_size)
(2, 2e-4, 80_000, 8), #
(2, 1e-4, 160_000, 8), # r = reduction factor (# of mel frames
(2, 3e-5, 320_000, 8), # synthesized for each decoder iteration)
(2, 1e-5, 640_000, 8)], # lr = learning rate
При предварительной обработке данных для синтезатора: уменьшите параметр batch_size в synthesizer/hparams.py
.
// До изменения
### Data Preprocessing
max_mel_frames = 900,
rescale = True,
rescaling_max = 0.9,
synthesis_batch_size = 16, # For vocoder preprocessing and inference.
// После изменения
### Data Preprocessing
max_mel_frames = 900,
rescale = True,
rescaling_max = 0.9,
synthesis_batch_size = 8, # For vocoder preprocessing and inference.
При обучении вокодера: уменьшите параметр batch_size в vocoder/wavernn/hparams.py
.
// До изменения
# Training
voc_batch_size = 100
voc_lr = 1e-4
voc_gen_at_checkpoint = 5
voc_pad = 2
// После изменения
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )