paddlepaddle-PaddleSpeech: Easy-to-use Speech Toolkit including SOTA ASR pipeline, influential TTS with text frontend and End-to-End Speech Simultaneous Translation.

Быстрый старт | Документация | Список моделей | Курсы AIStudio | Победитель награды за лучшее демонстрационное приложение NAACL2022 | Gitee

------------------------------------------------------------------------------------PaddleSpeech — это открытый набор инструментов на платформе PaddlePaddle для выполнения различных задач в области речи и аудио с использованием передовых и влиятельных моделей. PaddleSpeech выиграл NAACL2022 Best Demo Award, пожалуйста, проверьте нашу статью на Arxiv.

Распознавание речи

Входной аудио	Результат распознавания
	I knocked at the door on the ancient side of the building.
	Я считаю, что самое важное в бегах — это то, что они приносят мне здоровье.

Перевод речи (английский в китайский)

Входной аудио	Результат перевода
	我在这栋建筑的古老门上敲门。

##### Преобразование текста в речь

Вводный текст	Синтетический аудио
Жизнь — это как коробка шоколадов, ты никогда не знаешь, что получишь.
Доброе утро, сегодня 2020/10/29, минимальная температура -3°C.
Жижи, Жи жи, Жи жи. Жи жи жаждет, Жи жи и Жи жи и Жи жи.

Здесь содержится повторяющийся текст на китайском языке, который можно перевести следующим образом:

Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, ЗзиЗдесь содержится повторяющийся текст на китайском языке, который можно перевести следующим образом:

Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, ЗзиЖи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи```markdown


У каждой страны есть свой гимн

``````Для получения более синтезированных аудио, обратитесь к [примерам PaddleSpeech Text-to-Speech](https://paddlespeech.readthedocs.io/en/latest/tts/demo.html).

Восстановление пунктуации

Исходный текст	Выходной текст
今天的天气真不错啊你下午有空吗我想约你一起去吃饭	Сегодня погода просто замечательная! У тебя есть время после обеда? Я хотел бы пригласить тебя пообедать со мной.

Возможности

С помощью удобного в использовании, эффективного, гибкого и масштабируемого решения наша цель — обеспечить как промышленное применение, так и академическое исследование, включая модули обучения, вывода и тестирования, а также процесс развертывания. Более конкретно, этот набор инструментов имеет следующие особенности:- 📦 Удобство использования: низкие барьеры для установки, CLI, сервер и стриминговый сервер доступны для быстрого старта.

🏆 Совместимость с передовыми технологиями: мы предоставляем модели высокой скорости и сверхлёгкие модели, а также передовые технологии.
🏆 Потоковая система распознавания речи и синтеза речи: мы предлагаем готовые к использованию потоковые системы распознавания речи и синтеза речи.
💯 Основанный на правилах китайский фронтенд: наш фронтенд включает нормализацию текста и преобразование графем в фонемы (G2P, включая полифонию и тональную санджу). Кроме того, мы используем самостоятельно определённые лингвистические правила для адаптации к контексту китайского языка.
📦 Различные функции, активирующие как промышленность, так и академию:
- 🛎️ Имплементация критических задач работы с аудио: этот набор инструментов содержит аудиофункции, такие как автоматическое распознавание речи, синтез речи, верификация говорящего, поиск ключевых слов, классификация аудио и перевод речи, и т. д.
- 🔬 Интеграция основных моделей и наборов данных: набор инструментов реализует модули, участвующие во всём цикле выполнения задачи с речью, и использует основные наборы данных, такие как LibriSpeech, LJSpeech, AIShell, CSMSC и т. д. Подробнее см. список моделей. - 🧩 Применение последовательных моделей: как расширение типичных традиционных задач работы с аудио, мы объединяем рабочие процессы этих задач с другими областями, такими как естественная обработка языка (NLP) и компьютерное зрение (CV). ### Последние обновления
👑 31 мая 2023: Добавлено WavLM ASR-en, WavLM переобучение для ASR на LibriSpeech.
👑 4 мая 2023: Добавлено HuBERT ASR-en, HuBERT переобучение для ASR на LibriSpeech.
⚡ 28 апреля 2bk3: Исправлено 0-d tensor, с обновлением до paddlepaddle==2.5 проблема изменения 0-d tensor решена.
👑 25 апреля 2023: Добавлено AMP для U2 conformer.
🔥 6 апреля 2023: Добавлен пример генерации файла субтитров в формате .srt (пример).
🔥 14 марта 2023: Добавлены примеры SVS (синтезирующего голосового синтеза) с использованием набора данных Opencpop, включая DiffSinger, PWGAN и HiFiGAN, эффект постоянно оптимизируется.
👑 9 марта 2023: Добавлено Wav2vec2ASR-zh.
🎉 7 марта 2023: Добавлен демонстрационный проект TTS ARM Linux C++ (с C++ передней частью текста на китайском языке) (пример).
🔥 3 марта 2023: Добавлен пример преобразования голоса StarGANv2-VC synthesis pipeline.
🎉 16 февраля 2023: Добавлено Cantonese TTS. - 🔥 10 января 2023: Добавлены [кодовый переключатель asr CLI и демо](. /demos/speech_recognition).
👑 6 января 2023: Добавлено [кодовый переключатель asr tal_cs рецепт](. /examples/tal_cs/asr1/).
🎉 2 декабря 2022: Добавлен [конечный конвейер прогнозирования просодии](. /examples/csmsc/tts3_rhy) (включает использование меток просодии в акустической модели).
🎉 30 ноября 2022: Добавлен [демонстрационный проект TTS для Android](. /demos/TTSAndroid).
🤗 28 ноября 2022: Примеры PP-TTS и PP-ASR доступны на AIStudio и официальном сайте PaddlePaddle.
👑 18 ноября 2022: Добавлены Whisper CLI и демо, поддерживающие распознавание и перевод на несколько языков.
🔥 18 ноября 2022: Добавлены [Wav2vec2 CLI и демо](. /demos/speech_ssl), поддерживающие ASR и извлечение признаков.
🎉 17 ноября 2022: Добавлен мужской голос для TTS (пример).
🔥 7 ноября 2022: Добавлены U2/U2++ C++ высокопроизводительные потоковые системы ASR.
👑 2022. 11. 01: Добавлено потеря Adversarial для [TTS с перемешиванием китайского и английского языков](. /examples/zh_en_tts/tts3).
🔥 2022. 10. 26: Добавлена [предсказание Prosody](. /examples/other/rhy) для TTS.
🎉 2022. 10. 21: Добавлен SSML для переднего конца текста TTS китайского языка.
👑 2022. 10. 11: Добавлен Wav2vec2ASR-en (. /examples/librispeech/asr3), fine-tuning wav2vec2.0 для ASR на LibriSpeech.
🔥 2022. 09.26: Добавлен клонирование голоса, fine-tune TTS и ERNIE-SAT в Web-демонстрация PaddleSpeech.
⚡ 2022. 09. 09: Добавлен пример клонирования голоса AISHELL-3 (. /examples/aishell3/vc2) с использованием ECAPA-TDNN speaker encoder.
⚡ 2022. 08. 25: Выпущен пример fine-tune TTS (. /examples/other/tts_finetune/tts3).
🔥 2022. 08. 22: Добавлены модели ERNIE-SAT (. /examples/vctk/ernie_sat), [ERNIE-SAT-aishell3](. /examples/aishell3/ernie_sat), [ERNIE-SAT-zh_en](. /examples/aishell3_vctk/ernie_sat).
🔥 2022. 08. 15: Добавлен g2pW (. /examples/csmsc/g2pw) в начало текста TTS китайского языка.
🔥 2022. 08. 09: Выпущен [TTS с перемешиванием китайского и английского языков](. /examples/zh_en_tts/tts3).
⚡ 2022. 08. 03: Добавлен ONNXRuntime infer для TTS CLI.
🎉 2022. 07. 18: Выпущен VITS: [VITS-csmsc](. /examples/csmsc/vits), [VITS-aishell3](. /examples/aishell3/vits), [VITS-VC](. /examples/aishell3/vits-vc).
🎉 2022. 06. 22: Все модели TTS поддерживают формат ONNX.
🍀 2022. 06. 17: Добавлена [Web-демонстрация PaddleSpeech](. /demos/speech_web).
👑 2022. 05. 13: Выпущены PP-ASR (. /docs/source/asr/PPASR.md), [PP-TTS](. /docs/source/tts/PPTTS.md), PP-VPR.
👏🏻 2022. 05. 06: Доступна PaddleSpeech Streaming Server для Streaming ASR с восстановлением пунктуации и временными метками токенов и Text-to-Speech.
👏🏻 2022. 05. 06: Доступна PaddleSpeech Server для Аудио классификации, Автоматического распознавания речи, Text-to-Speech, Проверки говорящего и восстановления пунктуации.
👏🏻 2021. 12.10: Доступна PaddleSpeech CLI для аудио классификации, автоматического распознавания речи, перевода речи (английский на китайский) и text-to-speech. ### Сообщество

Сканируйте QR-код ниже с помощью WeChat, чтобы получить доступ к официальному сообществу по обмену техническими знаниями и получить бонус (более 20 ГБ учебных материалов, таких как статьи, коды и видео) и прямую ссылку на занятия. Жду вашей участия.

Установка

Мы настоятельно рекомендуем нашим пользователям установить PaddleSpeech в Linux с Python>=3.8 и PaddlePaddle<=2.5.1. Некоторые новые версии Paddle не поддерживают адаптацию в PaddleSpeech, поэтому в настоящее время поддерживаются только версии 2.5.1 и более ранние.

Введение в зависимости

GCC >= 4.8.5
PaddlePaddle <= 2.5.1
Python >= 3.8
Поддерживаемые ОС: Linux (рекомендовано), Windows, Mac OS X

PaddleSpeech зависит от PaddlePaddle. Для установки обратитесь к официальной странице PaddlePaddle и выберите подходящий вариант для вашего оборудования. Вот пример установки для CPU.

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

Вы также можете указать конкретную версию PaddlePaddle или установить разработческую версию.

# установка версии 2.4.1. Примечание: 2.4.1 — это просто пример, пожалуйста, следуйте минимальным зависимостям PaddlePaddle при выборе
pip install paddlepaddle==2.4.1 -i https://mirror.baidu.com/pypi/simple
# установка разработческой версии
pip install paddlepaddle==0.0.0 -f https://www.paddlepaddle.org.cn/whl/linux/cpu-mkl/develop.html

Для PaddleSpeech есть два быстрых метода установки: через pip и компиляцию исходного кода (рекомендуется).

Установка через pip

pip install pytest-runner
pip install paddlespeech

Компиляция исходного кода

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .
```Для решения других проблем установки, таких как среда Conda, зависимость от librosa, проблемы с GCC, установка Kaldi и т.д., вы можете обратиться к этому [документу по установке](./docs/source/install.md). Если вы столкнулись с проблемами во время установки, вы можете оставить сообщение на [#2150](https://github.com/PaddlePaddle/PaddleSpeech/issues/2150) и найти связанные проблемы.<a name="quickstart"></a>
## Быстрый старт

Разработчики могут попробовать наши модели с помощью [командной строки PaddleSpeech](./paddlespeech/cli/README.md) или Python. Измените `--input`, чтобы протестировать своё аудио/текст, поддерживаются аудиофайлы в формате 16k wav.

**Вы также можете быстро оценить его в AI Studio 👉🏻 [Демо API PaddleSpeech](https://aistudio.baidu.com/aistudio/projectdetail/4353348?sUid=2470186&shared=1&ts=1660876445786)**


Загрузка тестовых образцов аудио

```shell
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

Автоматическое распознавание речи

(Нажмите, чтобы развернуть) Открытое распознавание речи

Опыт работы с командной строкой

paddlespeech asr --lang zh --input zh.wav

Опыт работы с API Python

>>> from paddlespeech.cli.asr.infer import ASRExecutor
>>> asr = ASRExecutor()
>>> result = asr(audio_file="zh.wav")
>>> print(result)
Я считаю, что самое важное в беге — это то, что он приносит мне здоровье.

Преобразование текста в речь

Открытое преобразование текста в речь

Производит аудиофайл со скоростью дискретизации 24 кГц

Опыт работы с командной строкой

paddlespeech tts --input "Привет, добро пожаловать использовать глубинное обучение Baidu Paddle!" --output output.wav

Опыт работы с API Python

>>> from paddlespeech.cli.tts.infer import TTSExecutor
>>> tts = TTSExecutor()
>>> tts(text="Сегодня погода отличная.", output="output.wav")

Вы можете оценить его в Huggingface Spaces Демо TTS

Классификация аудио

Инструмент классификации звука открытого домена

Модели классификации звука на основе набора данных AudioSet с Yöntem 527 категориями

Опыт работы с командной строкой

paddlespeech cls --input zh.wav

Опыт работы с API Python

>>> from paddlespeech.cli.cls.infer import CLSExecutor
>>> cls = CLSExecutor()
>>> result = cls(audio_file="zh.wav")
>>> print(result)
{'Speech': 0.9027186632156372}

Экстракция голосового отпечатка

Профессиональный инструмент экстракции голосового отпечатка

Опыт работы с командной строкой

paddlespeech vector --task spk --input zh.wav

Опыт использования Python API

>>> from paddlespeech.cli.vector import VectorExecutor
>>> vec = VectorExecutor()
>>> result = vec(audio_file="zh.wav")
>>> print(result) # 187-мерный вектор
[-0.19083306, 9.474295, -14.122263, -2.0916545, 0.04848729,
 4.9295826, 1.4780062, 0.3733844, 10.695862, 3.2697146,
 -4.48199, -0.6617882, -9.170393, -11.1568775, -1.2358263...]

Восстановление пунктуации
Быстрое восстановление пунктуации текста, работает с моделями распознавания речи

Опыт работы через командную строку

paddlespeech текст --задача punc --ввод "今天的天气真不错啊你下午有空吗我想约你一起去吃饭"

Опыт использования Python API

>>> from paddlespeech.cli.text.infer import TextExecutor
>>> text_punc = TextExecutor()
>>> result = text_punc(текст="今天的天气真不错啊你下午有空吗我想约你一起去吃饭")
'今天的天气真不错啊！你下午有空吗？我想约你一起去吃饭。'

Перевод речи

Инструмент полносвязного перевода английской речи на китайский язык

Использует предварительно скомпилированные инструменты Kaldi, поддерживаются только опыт работы в системах Ubuntu

Опыт работы через командную строку

paddlespeech st --ввод en.wav

Опыт использования Python API

>>> from paddlespeech.cli.st.infer import STExecutor
>>> st = STExecutor()
>>> result = st(аудио_файл="en.wav")
['я в этом здании старой дверью стучу.']

Быстрый запуск сервера

Разработчики могут попробовать наш сервер распознавания речи с помощью PaddleSpeech Server Command Line.

Вы можете быстро попробовать его в AI Studio (рекомендовано): SpeechServer

Запустить сервер

paddlespeech_server start --конфиг_файл ./demos/speech_server/conf/application.yaml

Доступ к услугам распознавания речи ```shell paddlespeech_client asr --сервер_ip 127.0.0.1 --порт 8090 --ввод input_16k.wav


**Доступ к услугам распознавания речи**

```shell
paddlespeech_client tts --сервер_ip 127.0.0.1 --порт 8090 --ввод "Привет, добро пожаловать в сервис синтеза речи от Baidu Paddle." --выход output.wav

Доступ к сервисам классификации аудио

paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wav

Для получения более подробной информации о командных строках сервера, пожалуйста, обратитесь к: примеры использования сервера

Быстрый старт сервера потоковой передачи

Разработчики могут попробовать потоковое распознавание речи и потоковый синтез речи серверы.

Запуск сервера потокового распознавания речи

paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml

Доступ к сервисам потокового распознавания речи

paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

Запуск сервера потокового синтеза речи

paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml

Доступ к сервисам потокового синтеза речи

paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "Привет, добро пожаловать в систему.baidu.flypaddle.synthesis.service." --output output.wav

Для получения более подробной информации обратитесь к: потоковое распознавание речи и потоковый синтез речи

Список моделей

PaddleSpeech поддерживает ряд самых популярных моделей. Они суммированы в открытых моделях и предоставляются доступными предобученными моделями.

Система распознавания речи включает акустическую модель, лингвистическую модель и модель машинного перевода, с последующими подробностями:

Тип модуля распознавания речи	Набор данных	Тип модели	Пример
Распознавание речи	Aishell	Глубокое обучение DeepSpeech2 с использованием RNN и свёрточной нейронной сети	deepspeech2-aishell
	Aishell	Модели на основе внимания с использованием Transformer	u2.transformer.conformer-aishell
	Librispeech	Модели на основе внимания с использованием Transformer	deepspeech2-librispeech / transformer.conformer.u2-librispeech / transformer.conformer.u2-kaldi-librispeech
	TIMIT	Объединённое потоковое и непотоковое двухпроходное моделирование	u2-timit
Выравнивание	THCHS30	MFA	mfa-thchs30
Лингвистическая модель	N-граммовая лингвистическая модель		kenlm
Перевод речи (английский язык в китайский)	TED En-Zh	Transformer + ASR MTL	transformer_asr_translation_en_zh

/examples/ted_en_zh/st0">transformer-ted FAT + Transformer + ASR MTL fat-st-ted **Текст-в-речь** в PaddleSpeech主要包括三个模块：*текстовый фронтенд*, *акустическая модель* и *вокодер*. Акустические модели и модели вокодера приведены ниже:

Тип модуля преобразования текста в речь	Тип модели	Набор данных	Пример
Текстовый фронтенд			tn / g2p
Акустическая модель	Tacotron2	LJSpeech / CSMSC	tacotron2-ljspeech / tacotron2-csmsc
	Transformer TTS	LJSpeech	transformer-ljspeech
	SpeedySpeech	CSMSC	speedyspeech-csmsc
	FastSpeech2	LJSpeech / VCTK / CSMSC / AISHELL-3 / ZH\_EN / fine-tuning	fastspeech2-ljspeech / fastspeech2-vctk / fastspeech2-csmsc / fastspeech2-aishell3 / fastspeech2-zh\_en / fastspeech2-fine-tuning
	ERNIE-SAT	VCTK / AISHELL-3 / ZH\_EN	ERNIE-SAT-vctk / ERNIE-SAT-aishell3 / ERNIE-SAT-zh\_en
	DiffSinger	Opencpop	DiffSinger-opencpop

```markdown

Вокодер	WaveFlow	LJSpeech	waveflow-ljspeech
	Parallel WaveGAN	LJSpeech / VCTK / CSMSC / AISHELL-3 / Opencpop	PWGAN-ljspeech / PWGAN-vctk / PWGAN-csmsc / PWGAN-aishell3 / PWGAN-opencpop
	Multiband MelGAN	CSMSC	Multiband MelGAN-csmsc
	Style MelGAN	CSMSC	Style MelGAN-csmsc
	HiFiGAN	LJSpeech / VCTK / CSMSC / AISHELL-3 / Opencpop	HiFiGAN-ljspeech / HiFiGAN-vctk / HiFiGAN-csmsc / HiFiGAN-aishell3 / HiFiGAN-opencpop
	WaveRNN	CSMSC	WaveRNN-csmsc
Голосовое клонирование	GE2E	Librispeech и т. д.	GE2E
	SV2TTS (GE2E + Tacotron2)	AISHELL-3	VC0
	SV2TTS (GE2E + FastSpeech2)	AISHELL-3	VC1
	SV2TTS (ECAPA-TDNN + FastSpeech2)	AISHELL-3	VC2

``` GE2E + VITS AISHELL-3 VITS-VC Полносвязное обучение VITS CSMSC / AISHELL-3 VITS-csmsc / VITS-aishell3 ``````**Классификация аудио**

Задача	Датасет	Тип модели	Пример
Классификация аудио	ESC-50	PANN	pann-esc50

Обнаружение ключевых слов

Задача	Датасет	Тип модели	Пример
Обнаружение ключевых слов	hey-snips	MDTC	mdtc-hey-snips

Проверка голоса

Задача	Датасет	Тип модели	Пример
Проверка голоса	VoxCeleb1/2	ECAPA-TDNN	ecapa-tdnn-voxceleb12

Диаризация говорящих

Задача	Датасет	Тип модели	Пример
Диаризация говорящих	AMI	ECAPA-TDNN + AHC / SC	ecapa-tdnn-ami

Восстановление пунктуации

Задача	Датасет	Тип модели	Пример
Восстановление пунктуации	IWLST2012_zh	Ernie Linear	iwslt2012-punc0

## Документы

Обычно, Speech SoTA, Audio SoTA и Music SoTA предоставляют общее представление о популярных академических темах в соответствующей области. Чтобы сосредоточиться на задачах в PaddleSpeech, следующие руководства помогут вам понять основные идеи:

Установка
Быстрый старт
Некоторые демонстрационные примеры
Учебники
- Автоматическое распознавание речи
- Текст в речь
- [Верификация говорящего](. /demos/speaker_verification/README. md)
  - [Поиск аудиофайлов](. /demos/audio_searching/README. md)
- [Классификация аудиофайлов](. /demos/audio_tagging/README. md)
- [Перевод речи](. /demos/speech_translation/README. md)
- [Сервер речи](. /demos/speech_server/README. md)
Открытые модели
Приглашение к вкладу
ЛицензияМодуль "Текст в речь" ранее назывался Parakeet, но теперь он объединён с этим репозиторием. Если вас интересует академическая работа над этой задачей, пожалуйста, обратитесь к общему обзору исследований TTS. Также этот документ является хорошим руководством для компонентов конвейера.

⭐ Примеры

PaddleBoBo: Используйте PaddleSpeech TTS для генерации голоса виртуального человека.

- [Демонстрационное видео PaddleSpeech](https://paddlespeech.readthedocs.io/en/latest/demo_video.html)

VTuberTalk: Используйте PaddleSpeech TTS и ASR для клонирования голоса с видео.

Цитирование

Чтобы цитировать PaddleSpeech в научной работе, пожалуйста, используйте следующий формат.

@inproceedings{zhang2022paddlespeech,
    title = {PaddleSpeech: Инструментарий для работы со звуками},
    author = {Хуи Чжан, Тян Юань, Жункун Чень, Синьтонг Ли, Ренцзи Чжэн, Юксин Хуанг, Сяоцзе Чен, Энлай Гонг, Цейю Чен, Сяогуаньг Ху, Дианхай Ю, Яньджун Ма, Лянг Хуан},
    booktitle = {Программы конференций Североамериканского отделения Ассоциации вычислительной лингвистики: технологии человеческого языка},
    year = {2022},
    publisher = {Ассоциация вычислительной лингвистики},
}
``````markdown
@InProceedings{pmlr-v162-bai22d,
  title = {{$A}^3{T}$: учет совпадений при обучении акустических и текстовых моделей для синтеза речи и её редактирования}},
  author = {Бэй, Хэ и Чжэн, Ренчжи и Чень, Жункун и Ма, Минбо и Ли, Синьтонг и Хуан, Лянг},
  booktitle = {Программы Международной конференции по машинному обучению},
  pages = {1399--1411},
  year = {2022},
  volume = {162},
  series = {Программы исследования обучения машины},
  month = {17--23 июля},
  publisher = {PMLR},
  pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
  url = {https://proceedings.mlr.press/v162/bai22d.html},
}

@inproceedings{zheng2021fused,
  title = {Объединённая акустическая и текстовая закодировка для многомодального билингового предобучения и перевода речи},
  author = {Чжэн, Ренчжи и Чень, Жункун и Ма, Минбо и Хуан, Лянг},
  booktitle = {Международная конференция по машинному обучению},
  pages = {12736--12746},
  year = {2021},
  organization = {PMLR}
}

Внесение вклада в PaddleSpeech

Вы всегда приветствуетесь к отправке вопросов в дискуссиях и отчетов об ошибках в задачах! Также мы очень благодарны за вашу готовность внести свой вклад в этот проект!

Участники

``````markdown

Благодарность

Огромное спасибо HighCWu за добавление примеров VITS-aishell3 и VITS-VC.
Огромное спасибо david-95.com/david-95) за исправление ошибки с многоточием, внесение множества улучшений в программы и данные, а также добавление SSML для передней части текста TTS на китайском языке.
- Огромное спасибо BarryKCL за улучшение передней части текста TTS на китайском языке на основе G2PW.
- Огромное спасибо yeyupiaoling/PPASR/PaddlePaddle-DeepSpeech/VoiceprintRecognition-PaddlePaddle/AudioClassification-PaddlePaddle за годы внимательной работы, конструктивных советов и большого вклада.
- Огромное спасибо mymagicpower за реализацию ASR на Java для коротких (short) и длинных (long) аудиофайлов.
- Огромное спасибо JiehangXie/PaddleBoBo за создание Виртуального Загрузчика (VUP)/Виртуального Ютубера (VTuber) с использованием функции TTS PaddleSpeech.
- Огромное спасибо 745165806/PaddleSpeechTask за внесение модели восстановления пунктуации.
- Огромное спасибо kslz за дополнительные китайские документы.
- Огромное спасибо awmmmm за внесение модели предобученной на данных fastspeech2 aishell3 conformer.
- Огромное спасибо phecda-xucom/phecda-xu)/PaddleDubbing за создание инструмента для дублирования с графическим интерфейсом на основе модели TTS PaddleSpeech.
- Огромное спасибо jerryuhoo/VTuberTalk за создание графического инструмента на основе TTS PaddleSpeech и кода для создания наборов данных из видео на основе ASR PaddleSpeech.
- Огромное спасибо vpegasus/xuesebot. (Ссылка на проект: vpegasus/xuesebot) за развитие чат-бота на основе Rasa, который может говорить и слушать благодаря PaddleSpeech.- Благодарю chenkui164/FastASR за реализацию вывода на C++ для распознавания речи в PaddleSpeech.
Благодарю heyudage/VoiceTyping за реализацию инструмента для реального времени голосового набора текста для потоковых услуг распознавания речи в PaddleSpeech.
Благодарю EscaticZheng/ps3.9wheel-install за готовый Python 3.9 wheel для установки PaddleSpeech на Windows без использования Visual Studio.

Кроме того, PaddleSpeech зависит от многих открытых репозиториев. Для получения более подробной информации см. раздел ссылки.

Благодарю chinobing/FastAPI-PaddleSpeech-Audio-To-Text за конвертацию аудио в текст с использованием FastAPI и PaddleSpeech.
Благодарю MistEO/Pallas-Bot за бота для QQ на основе PaddleSpeech TTS.

Лицензия

PaddleSpeech предоставляется под лицензией Apache-2.0.

OSCHINA-MIRROR/paddlepaddle-PaddleSpeech

Быстрый старт | Документация | Список моделей | Курсы AIStudio | Победитель награды за лучшее демонстрационное приложение NAACL2022 | Gitee

Распознавание речи

Перевод речи (английский в китайский)

Восстановление пунктуации

Возможности

Установка

Введение в зависимости

Установка через pip

Компиляция исходного кода

Автоматическое распознавание речи

Преобразование текста в речь

Классификация аудио

Экстракция голосового отпечатка

Восстановление пунктуации
Быстрое восстановление пунктуации текста, работает с моделями распознавания речи

Перевод речи

Быстрый запуск сервера

Быстрый старт сервера потоковой передачи

Список моделей

⭐ Примеры

Цитирование

Внесение вклада в PaddleSpeech

Участники

Благодарность

Лицензия

Количество звезд со временем

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/paddlepaddle-PaddleSpeech .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Быстрый старт | Документация | Список моделей | Курсы AIStudio | Победитель награды за лучшее демонстрационное приложение NAACL2022 | Gitee

Распознавание речи

Перевод речи (английский в китайский)

Восстановление пунктуации

Возможности

Установка

Введение в зависимости

Установка через pip

Компиляция исходного кода

Автоматическое распознавание речи

Преобразование текста в речь

Классификация аудио

Экстракция голосового отпечатка

Восстановление пунктуацииБыстрое восстановление пунктуации текста, работает с моделями распознавания речи

Перевод речи

Быстрый запуск сервера

Быстрый старт сервера потоковой передачи

Список моделей

⭐ Примеры

Цитирование

Внесение вклада в PaddleSpeech

Участники

Благодарность

Лицензия

Количество звезд со временем

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/paddlepaddle-PaddleSpeech

Восстановление пунктуации
Быстрое восстановление пунктуации текста, работает с моделями распознавания речи