README-CN.md · OSCHINA-MIRROR/babysor-MockingBird

Структура файлов (для разработчиков):

├─archived_untest_files — устаревшие файлы
├─encoder — модель encoder
│  ├─data_objects
│  └─saved_models — предварительно обученные модели
├─samples — образцы аудиозаписей
├─synthesizer — модель synthesizer
│  ├─models
│  ├─saved_models — предварительно обученные модели
│  └─utils — библиотека инструментов
├─toolbox — графический набор инструментов
├─utils — библиотека инструментов
├─vocoder — модель vocoder (в настоящее время включает hifi-gan и wavrnn)
│  ├─hifigan
│  ├─saved_models — предварительно обученные модели
│  └─wavernn
└─web
    ├─api
    │  └─Web-интерфейс
    ├─config
    │  └─ Web-конфигурационный файл
    ├─static — статические скрипты переднего плана
    │  └─js
    ├─templates — шаблоны переднего плана
    └─__init__.py — файл входа в Web

Ссылки и литература:

Данный репозиторий изначально был ответвлением от Real-Time-Voice-Cloning, за что автор выражает благодарность.

URL	Назначение	Заголовок	Реализация исходного кода
1803.09017	GlobalStyleToken (synthesizer)	Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis	Данный репозиторий
2010.05646	HiFi-GAN (vocoder)	Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis	Данный репозиторий
1806.04558	SV2TTS	Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis	Данный репозиторий
1802.08435	WaveRNN (vocoder)	Efficient Neural Audio Synthesis	fatchord/WaveRNN
1703.10135	Tacotron (synthesizer)	Tacotron: Towards End-to-End Speech Synthesis	fatchord/WaveRNN
1710.10467	GE2E (encoder)	Generalized End-To-End Loss for Speaker Verification	Данный репозиторий

Часто задаваемые вопросы (FAQ):

1. Где скачать данные?

Набор данных	OpenSLR-адрес	Другие источники (Google Drive, Baidu Cloud и т. д.)
aidatatang_200zh	OpenSLR	Google Drive
magicdata	OpenSLR	Google Drive (Dev set)
aishell3	OpenSLR	Google Drive
data_aishell	OpenSLR

После распаковки aidatatang_200zh необходимо также распаковать aidatatang_200zh\corpus\train

2. Что означает `<datasets_root>`?

Если путь к данным равен D:\data\aidatatang_200zh, то <datasets_root> равен D:\data.

3. Не хватает памяти при сохранении модели

При обучении синтезатора: уменьшите параметр batch_size в synthesizer/hparams.py.

// До изменения
tts_schedule = [(2,  1e-3,  20_000,  12),   # Progressive training schedule
                (2,  5e-4,  40_000,  12),   # (r, lr, step, batch_size)
                (2,  2e-4,  80_000,  12),   #
                (2,  1e-4, 160_000,  12),   # r = reduction factor (# of mel frames
                (2,  3e-5, 320_000,  12),   #     synthesized for each decoder iteration)
                (2,  1e-5, 640_000,  12)],  # lr = learning rate
// После изменения
tts_schedule = [(2,  1e-3,  20_000,  8),   # Progressive training schedule
                (2,  5e-4,  40_000,  8),   # (r, lr, step, batch_size)
                (2,  2e-4,  80_000,  8),   #
                (2,  1e-4, 160_000,  8),   # r = reduction factor (# of mel frames
                (2,  3e-5, 320_000,  8),   #     synthesized for each decoder iteration)
                (2,  1e-5, 640_000,  8)],  # lr = learning rate

При предварительной обработке данных для синтезатора: уменьшите параметр batch_size в synthesizer/hparams.py.

// До изменения
### Data Preprocessing
        max_mel_frames = 900,
        rescale = True,
        rescaling_max = 0.9,
        synthesis_batch_size = 16,                  # For vocoder preprocessing and inference.
// После изменения
### Data Preprocessing
        max_mel_frames = 900,
        rescale = True,
        rescaling_max = 0.9,
        synthesis_batch_size = 8,                  # For vocoder preprocessing and inference.

При обучении вокодера: уменьшите параметр batch_size в vocoder/wavernn/hparams.py.

// До изменения
# Training
voc_batch_size = 100
voc_lr = 1e-4
voc_gen_at_checkpoint = 5
voc_pad = 2

// После изменения

OSCHINA-MIRROR/babysor-MockingBird

1. Где скачать данные?

2. Что означает `<datasets_root>`?

3. Не хватает памяти при сохранении модели

Опубликовать ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/babysor-MockingBird .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

1. Где скачать данные?

2. Что означает <datasets_root>?

3. Не хватает памяти при сохранении модели

Опубликовать ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/babysor-MockingBird

2. Что означает `<datasets_root>`?