1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/babysor-MockingBird

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
README-CN.md 5.9 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 30.11.2024 10:59 4859b31

Структура файлов (для разработчиков):

├─archived_untest_files — устаревшие файлы
├─encoder — модель encoder
│  ├─data_objects
│  └─saved_models — предварительно обученные модели
├─samples — образцы аудиозаписей
├─synthesizer — модель synthesizer
│  ├─models
│  ├─saved_models — предварительно обученные модели
│  └─utils — библиотека инструментов
├─toolbox — графический набор инструментов
├─utils — библиотека инструментов
├─vocoder — модель vocoder (в настоящее время включает hifi-gan и wavrnn)
│  ├─hifigan
│  ├─saved_models — предварительно обученные модели
│  └─wavernn
└─web
    ├─api
    │  └─Web-интерфейс
    ├─config
    │  └─ Web-конфигурационный файл
    ├─static — статические скрипты переднего плана
    │  └─js
    ├─templates — шаблоны переднего плана
    └─__init__.py — файл входа в Web

Ссылки и литература:

Данный репозиторий изначально был ответвлением от Real-Time-Voice-Cloning, за что автор выражает благодарность.

URL Назначение Заголовок Реализация исходного кода
1803.09017 GlobalStyleToken (synthesizer) Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis Данный репозиторий
2010.05646 HiFi-GAN (vocoder) Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis Данный репозиторий
1806.04558 SV2TTS Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis Данный репозиторий
1802.08435 WaveRNN (vocoder) Efficient Neural Audio Synthesis fatchord/WaveRNN
1703.10135 Tacotron (synthesizer) Tacotron: Towards End-to-End Speech Synthesis fatchord/WaveRNN
1710.10467 GE2E (encoder) Generalized End-To-End Loss for Speaker Verification Данный репозиторий

Часто задаваемые вопросы (FAQ):

1. Где скачать данные?

Набор данных OpenSLR-адрес Другие источники (Google Drive, Baidu Cloud и т. д.)
aidatatang_200zh OpenSLR Google Drive
magicdata OpenSLR Google Drive (Dev set)
aishell3 OpenSLR Google Drive
data_aishell OpenSLR

После распаковки aidatatang_200zh необходимо также распаковать aidatatang_200zh\corpus\train

2. Что означает <datasets_root>?

Если путь к данным равен D:\data\aidatatang_200zh, то <datasets_root> равен D:\data.

3. Не хватает памяти при сохранении модели

При обучении синтезатора: уменьшите параметр batch_size в synthesizer/hparams.py.

// До изменения
tts_schedule = [(2,  1e-3,  20_000,  12),   # Progressive training schedule
                (2,  5e-4,  40_000,  12),   # (r, lr, step, batch_size)
                (2,  2e-4,  80_000,  12),   #
                (2,  1e-4, 160_000,  12),   # r = reduction factor (# of mel frames
                (2,  3e-5, 320_000,  12),   #     synthesized for each decoder iteration)
                (2,  1e-5, 640_000,  12)],  # lr = learning rate
// После изменения
tts_schedule = [(2,  1e-3,  20_000,  8),   # Progressive training schedule
                (2,  5e-4,  40_000,  8),   # (r, lr, step, batch_size)
                (2,  2e-4,  80_000,  8),   #
                (2,  1e-4, 160_000,  8),   # r = reduction factor (# of mel frames
                (2,  3e-5, 320_000,  8),   #     synthesized for each decoder iteration)
                (2,  1e-5, 640_000,  8)],  # lr = learning rate

При предварительной обработке данных для синтезатора: уменьшите параметр batch_size в synthesizer/hparams.py.

// До изменения
### Data Preprocessing
        max_mel_frames = 900,
        rescale = True,
        rescaling_max = 0.9,
        synthesis_batch_size = 16,                  # For vocoder preprocessing and inference.
// После изменения
### Data Preprocessing
        max_mel_frames = 900,
        rescale = True,
        rescaling_max = 0.9,
        synthesis_batch_size = 8,                  # For vocoder preprocessing and inference.

При обучении вокодера: уменьшите параметр batch_size в vocoder/wavernn/hparams.py.

// До изменения
# Training
voc_batch_size = 100
voc_lr = 1e-4
voc_gen_at_checkpoint = 5
voc_pad = 2

// После изменения

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/babysor-MockingBird.git
git@api.gitlife.ru:oschina-mirror/babysor-MockingBird.git
oschina-mirror
babysor-MockingBird
babysor-MockingBird
main