1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/paddlepaddle-PaddleSpeech

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

(упрощенный китайский | Русский)

------------------------------------------------------------------------------------PaddleSpeech — это открытый набор инструментов на платформе PaddlePaddle для выполнения различных задач в области речи и аудио с использованием передовых и влиятельных моделей. PaddleSpeech выиграл NAACL2022 Best Demo Award, пожалуйста, проверьте нашу статью на Arxiv.

Распознавание речи
Входной аудио Результат распознавания

I knocked at the door on the ancient side of the building.

Я считаю, что самое важное в бегах — это то, что они приносят мне здоровье.
Перевод речи (английский в китайский)
Входной аудио Результат перевода

我在这栋建筑的古老门上敲门。
##### Преобразование текста в речь
Вводный текст Синтетический аудио
Жизнь — это как коробка шоколадов, ты никогда не знаешь, что получишь.
Доброе утро, сегодня 2020/10/29, минимальная температура -3°C.
Жижи, Жи жи, Жи жи. Жи жи жаждет, Жи жи и Жи жи и Жи жи.
Здесь содержится повторяющийся текст на китайском языке, который можно перевести следующим образом:

Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, ЗзиЗдесь содержится повторяющийся текст на китайском языке, который можно перевести следующим образом:

Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, ЗзиЖи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи```markdown

У каждой страны есть свой гимн
``````Для получения более синтезированных аудио, обратитесь к [примерам PaddleSpeech Text-to-Speech](https://paddlespeech.readthedocs.io/en/latest/tts/demo.html).

Восстановление пунктуации

Исходный текст Выходной текст
今天的天气真不错啊你下午有空吗我想约你一起去吃饭 Сегодня погода просто замечательная! У тебя есть время после обеда? Я хотел бы пригласить тебя пообедать со мной.

Возможности

С помощью удобного в использовании, эффективного, гибкого и масштабируемого решения наша цель — обеспечить как промышленное применение, так и академическое исследование, включая модули обучения, вывода и тестирования, а также процесс развертывания. Более конкретно, этот набор инструментов имеет следующие особенности:- 📦 Удобство использования: низкие барьеры для установки, CLI, сервер и стриминговый сервер доступны для быстрого старта.

  • 🏆 Совместимость с передовыми технологиями: мы предоставляем модели высокой скорости и сверхлёгкие модели, а также передовые технологии.
  • 🏆 Потоковая система распознавания речи и синтеза речи: мы предлагаем готовые к использованию потоковые системы распознавания речи и синтеза речи.
  • 💯 Основанный на правилах китайский фронтенд: наш фронтенд включает нормализацию текста и преобразование графем в фонемы (G2P, включая полифонию и тональную санджу). Кроме того, мы используем самостоятельно определённые лингвистические правила для адаптации к контексту китайского языка.
  • 📦 Различные функции, активирующие как промышленность, так и академию:
    • 🛎️ Имплементация критических задач работы с аудио: этот набор инструментов содержит аудиофункции, такие как автоматическое распознавание речи, синтез речи, верификация говорящего, поиск ключевых слов, классификация аудио и перевод речи, и т. д.
    • 🔬 Интеграция основных моделей и наборов данных: набор инструментов реализует модули, участвующие во всём цикле выполнения задачи с речью, и использует основные наборы данных, такие как LibriSpeech, LJSpeech, AIShell, CSMSC и т. д. Подробнее см. список моделей. - 🧩 Применение последовательных моделей: как расширение типичных традиционных задач работы с аудио, мы объединяем рабочие процессы этих задач с другими областями, такими как естественная обработка языка (NLP) и компьютерное зрение (CV). ### Последние обновления
  • 👑 31 мая 2023: Добавлено WavLM ASR-en, WavLM переобучение для ASR на LibriSpeech.
  • 👑 4 мая 2023: Добавлено HuBERT ASR-en, HuBERT переобучение для ASR на LibriSpeech.
  • ⚡ 28 апреля 2bk3: Исправлено 0-d tensor, с обновлением до paddlepaddle==2.5 проблема изменения 0-d tensor решена.
  • 👑 25 апреля 2023: Добавлено AMP для U2 conformer.
  • 🔥 6 апреля 2023: Добавлен пример генерации файла субтитров в формате .srt (пример).
  • 🔥 14 марта 2023: Добавлены примеры SVS (синтезирующего голосового синтеза) с использованием набора данных Opencpop, включая DiffSinger, PWGAN и HiFiGAN, эффект постоянно оптимизируется.
  • 👑 9 марта 2023: Добавлено Wav2vec2ASR-zh.
  • 🎉 7 марта 2023: Добавлен демонстрационный проект TTS ARM Linux C++ (с C++ передней частью текста на китайском языке) (пример).
  • 🔥 3 марта 2023: Добавлен пример преобразования голоса StarGANv2-VC synthesis pipeline.
  • 🎉 16 февраля 2023: Добавлено Cantonese TTS. - 🔥 10 января 2023: Добавлены [кодовый переключатель asr CLI и демо](. /demos/speech_recognition).
  • 👑 6 января 2023: Добавлено [кодовый переключатель asr tal_cs рецепт](. /examples/tal_cs/asr1/).
  • 🎉 2 декабря 2022: Добавлен [конечный конвейер прогнозирования просодии](. /examples/csmsc/tts3_rhy) (включает использование меток просодии в акустической модели).
  • 🎉 30 ноября 2022: Добавлен [демонстрационный проект TTS для Android](. /demos/TTSAndroid).
  • 🤗 28 ноября 2022: Примеры PP-TTS и PP-ASR доступны на AIStudio и официальном сайте PaddlePaddle.
  • 👑 18 ноября 2022: Добавлены Whisper CLI и демо, поддерживающие распознавание и перевод на несколько языков.
  • 🔥 18 ноября 2022: Добавлены [Wav2vec2 CLI и демо](. /demos/speech_ssl), поддерживающие ASR и извлечение признаков.
  • 🎉 17 ноября 2022: Добавлен мужской голос для TTS (пример).
  • 🔥 7 ноября 2022: Добавлены U2/U2++ C++ высокопроизводительные потоковые системы ASR.
  • 👑 2022. 11. 01: Добавлено потеря Adversarial для [TTS с перемешиванием китайского и английского языков](. /examples/zh_en_tts/tts3).
  • 🔥 2022. 10. 26: Добавлена [предсказание Prosody](. /examples/other/rhy) для TTS.
  • 🎉 2022. 10. 21: Добавлен SSML для переднего конца текста TTS китайского языка.
  • 👑 2022. 10. 11: Добавлен Wav2vec2ASR-en (. /examples/librispeech/asr3), fine-tuning wav2vec2.0 для ASR на LibriSpeech.
  • 🔥 2022. 09.26: Добавлен клонирование голоса, fine-tune TTS и ERNIE-SAT в Web-демонстрация PaddleSpeech.
  • ⚡ 2022. 09. 09: Добавлен пример клонирования голоса AISHELL-3 (. /examples/aishell3/vc2) с использованием ECAPA-TDNN speaker encoder.
  • ⚡ 2022. 08. 25: Выпущен пример fine-tune TTS (. /examples/other/tts_finetune/tts3).
  • 🔥 2022. 08. 22: Добавлены модели ERNIE-SAT (. /examples/vctk/ernie_sat), [ERNIE-SAT-aishell3](. /examples/aishell3/ernie_sat), [ERNIE-SAT-zh_en](. /examples/aishell3_vctk/ernie_sat).
  • 🔥 2022. 08. 15: Добавлен g2pW (. /examples/csmsc/g2pw) в начало текста TTS китайского языка.
  • 🔥 2022. 08. 09: Выпущен [TTS с перемешиванием китайского и английского языков](. /examples/zh_en_tts/tts3).
  • ⚡ 2022. 08. 03: Добавлен ONNXRuntime infer для TTS CLI.
  • 🎉 2022. 07. 18: Выпущен VITS: [VITS-csmsc](. /examples/csmsc/vits), [VITS-aishell3](. /examples/aishell3/vits), [VITS-VC](. /examples/aishell3/vits-vc).
  • 🎉 2022. 06. 22: Все модели TTS поддерживают формат ONNX.
  • 🍀 2022. 06. 17: Добавлена [Web-демонстрация PaddleSpeech](. /demos/speech_web).
  • 👑 2022. 05. 13: Выпущены PP-ASR (. /docs/source/asr/PPASR.md), [PP-TTS](. /docs/source/tts/PPTTS.md), PP-VPR.
  • 👏🏻 2022. 05. 06: Доступна PaddleSpeech Streaming Server для Streaming ASR с восстановлением пунктуации и временными метками токенов и Text-to-Speech.
  • 👏🏻 2022. 05. 06: Доступна PaddleSpeech Server для Аудио классификации, Автоматического распознавания речи, Text-to-Speech, Проверки говорящего и восстановления пунктуации.
  • 👏🏻 2021. 12.10: Доступна PaddleSpeech CLI для аудио классификации, автоматического распознавания речи, перевода речи (английский на китайский) и text-to-speech. ### Сообщество
  • Сканируйте QR-код ниже с помощью WeChat, чтобы получить доступ к официальному сообществу по обмену техническими знаниями и получить бонус (более 20 ГБ учебных материалов, таких как статьи, коды и видео) и прямую ссылку на занятия. Жду вашей участия.

    Установка

    Мы настоятельно рекомендуем нашим пользователям установить PaddleSpeech в Linux с Python>=3.8 и PaddlePaddle<=2.5.1. Некоторые новые версии Paddle не поддерживают адаптацию в PaddleSpeech, поэтому в настоящее время поддерживаются только версии 2.5.1 и более ранние.

    Введение в зависимости

    • GCC >= 4.8.5
    • PaddlePaddle <= 2.5.1
    • Python >= 3.8
    • Поддерживаемые ОС: Linux (рекомендовано), Windows, Mac OS X

    PaddleSpeech зависит от PaddlePaddle. Для установки обратитесь к официальной странице PaddlePaddle и выберите подходящий вариант для вашего оборудования. Вот пример установки для CPU.

    pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

    Вы также можете указать конкретную версию PaddlePaddle или установить разработческую версию.

    # установка версии 2.4.1. Примечание: 2.4.1 — это просто пример, пожалуйста, следуйте минимальным зависимостям PaddlePaddle при выборе
    pip install paddlepaddle==2.4.1 -i https://mirror.baidu.com/pypi/simple
    # установка разработческой версии
    pip install paddlepaddle==0.0.0 -f https://www.paddlepaddle.org.cn/whl/linux/cpu-mkl/develop.html

    Для PaddleSpeech есть два быстрых метода установки: через pip и компиляцию исходного кода (рекомендуется).

    Установка через pip

    pip install pytest-runner
    pip install paddlespeech

    Компиляция исходного кода

    git clone https://github.com/PaddlePaddle/PaddleSpeech.git
    cd PaddleSpeech
    pip install pytest-runner
    pip install .
    ```Для решения других проблем установки, таких как среда Conda, зависимость от librosa, проблемы с GCC, установка Kaldi и т.д., вы можете обратиться к этому [документу по установке](./docs/source/install.md). Если вы столкнулись с проблемами во время установки, вы можете оставить сообщение на [#2150](https://github.com/PaddlePaddle/PaddleSpeech/issues/2150) и найти связанные проблемы.<a name="quickstart"></a>
    ## Быстрый старт
    
    Разработчики могут попробовать наши модели с помощью [командной строки PaddleSpeech](./paddlespeech/cli/README.md) или Python. Измените `--input`, чтобы протестировать своё аудио/текст, поддерживаются аудиофайлы в формате 16k wav.
    
    **Вы также можете быстро оценить его в AI Studio 👉🏻 [Демо API PaddleSpeech](https://aistudio.baidu.com/aistudio/projectdetail/4353348?sUid=2470186&shared=1&ts=1660876445786)**
    
    
    Загрузка тестовых образцов аудио
    
    ```shell
    wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
    wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

    Автоматическое распознавание речи

     (Нажмите, чтобы развернуть) Открытое распознавание речи

    Опыт работы с командной строкой

    paddlespeech asr --lang zh --input zh.wav

    Опыт работы с API Python

    >>> from paddlespeech.cli.asr.infer import ASRExecutor
    >>> asr = ASRExecutor()
    >>> result = asr(audio_file="zh.wav")
    >>> print(result)
    Я считаю, что самое важное в беге  это то, что он приносит мне здоровье.

    Преобразование текста в речь

     Открытое преобразование текста в речьПроизводит аудиофайл со скоростью дискретизации 24 кГц

    Опыт работы с командной строкой

    paddlespeech tts --input "Привет, добро пожаловать использовать глубинное обучение Baidu Paddle!" --output output.wav

    Опыт работы с API Python

    >>> from paddlespeech.cli.tts.infer import TTSExecutor
    >>> tts = TTSExecutor()
    >>> tts(text="Сегодня погода отличная.", output="output.wav")

    Классификация аудио

     Инструмент классификации звука открытого домена

    Модели классификации звука на основе набора данных AudioSet с Yöntem 527 категориями

    Опыт работы с командной строкой

    paddlespeech cls --input zh.wav

    Опыт работы с API Python

    >>> from paddlespeech.cli.cls.infer import CLSExecutor
    >>> cls = CLSExecutor()
    >>> result = cls(audio_file="zh.wav")
    >>> print(result)
    {'Speech': 0.9027186632156372}

    Экстракция голосового отпечатка

     Профессиональный инструмент экстракции голосового отпечатка

    Опыт работы с командной строкой

    paddlespeech vector --task spk --input zh.wav
    Опыт использования Python API
    >>> from paddlespeech.cli.vector import VectorExecutor
    >>> vec = VectorExecutor()
    >>> result = vec(audio_file="zh.wav")
    >>> print(result) # 187-мерный вектор
    [-0.19083306, 9.474295, -14.122263, -2.0916545, 0.04848729,
     4.9295826, 1.4780062, 0.3733844, 10.695862, 3.2697146,
     -4.48199, -0.6617882, -9.170393, -11.1568775, -1.2358263...]

    Восстановление пунктуации
    Быстрое восстановление пунктуации текста, работает с моделями распознавания речи

    Опыт работы через командную строку

    paddlespeech текст --задача punc --ввод "今天的天气真不错啊你下午有空吗我想约你一起去吃饭"

    Опыт использования Python API

    >>> from paddlespeech.cli.text.infer import TextExecutor
    >>> text_punc = TextExecutor()
    >>> result = text_punc(текст="今天的天气真不错啊你下午有空吗我想约你一起去吃饭")
    '今天的天气真不错啊!你下午有空吗?我想约你一起去吃饭。'

    Перевод речи

    Инструмент полносвязного перевода английской речи на китайский язык

    Использует предварительно скомпилированные инструменты Kaldi, поддерживаются только опыт работы в системах Ubuntu

    Опыт работы через командную строку

    paddlespeech st --ввод en.wav

    Опыт использования Python API

    >>> from paddlespeech.cli.st.infer import STExecutor
    >>> st = STExecutor()
    >>> result = st(аудио_файл="en.wav")
    ['я в этом здании старой дверью стучу.']

    Быстрый запуск сервера

    Разработчики могут попробовать наш сервер распознавания речи с помощью PaddleSpeech Server Command Line.

    Вы можете быстро попробовать его в AI Studio (рекомендовано): SpeechServer

    Запустить сервер

    paddlespeech_server start --конфиг_файл ./demos/speech_server/conf/application.yaml

    Доступ к услугам распознавания речи ```shell paddlespeech_client asr --сервер_ip 127.0.0.1 --порт 8090 --ввод input_16k.wav

    
    **Доступ к услугам распознавания речи**
    
    ```shell
    paddlespeech_client tts --сервер_ip 127.0.0.1 --порт 8090 --ввод "Привет, добро пожаловать в сервис синтеза речи от Baidu Paddle." --выход output.wav

    Доступ к сервисам классификации аудио

    paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wav

    Для получения более подробной информации о командных строках сервера, пожалуйста, обратитесь к: примеры использования сервера

    Быстрый старт сервера потоковой передачи

    Разработчики могут попробовать потоковое распознавание речи и потоковый синтез речи серверы.

    Запуск сервера потокового распознавания речи

    paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml

    Доступ к сервисам потокового распознавания речи

    paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

    Запуск сервера потокового синтеза речи

    paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml

    Доступ к сервисам потокового синтеза речи

    paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "Привет, добро пожаловать в систему.baidu.flypaddle.synthesis.service." --output output.wav

    Для получения более подробной информации обратитесь к: потоковое распознавание речи и потоковый синтез речи

    Список моделей

    PaddleSpeech поддерживает ряд самых популярных моделей. Они суммированы в открытых моделях и предоставляются доступными предобученными моделями.

    Система распознавания речи включает акустическую модель, лингвистическую модель и модель машинного перевода, с последующими подробностями:

    Тип модуля распознавания речи Набор данных Тип модели Пример
    Распознавание речи Aishell Глубокое обучение DeepSpeech2 с использованием RNN и свёрточной нейронной сети deepspeech2-aishell
    Модели на основе внимания с использованием Transformer u2.transformer.conformer-aishell
    Librispeech Модели на основе внимания с использованием Transformer deepspeech2-librispeech / transformer.conformer.u2-librispeech / transformer.conformer.u2-kaldi-librispeech
    TIMIT Объединённое потоковое и непотоковое двухпроходное моделирование u2-timit
    Выравнивание THCHS30 MFA mfa-thchs30
    Лингвистическая модель N-граммовая лингвистическая модель kenlm
    Перевод речи (английский язык в китайский) TED En-Zh Transformer + ASR MTL transformer_asr_translation_en_zh
    /examples/ted_en_zh/st0">transformer-ted FAT + Transformer + ASR MTL fat-st-ted **Текст-в-речь** в PaddleSpeech主要包括三个模块:*текстовый фронтенд*, *акустическая модель* и *вокодер*. Акустические модели и модели вокодера приведены ниже:
    Тип модуля преобразования текста в речь Тип модели Набор данных Пример
    Текстовый фронтенд tn / g2p
    Акустическая модель Tacotron2 LJSpeech / CSMSC tacotron2-ljspeech / tacotron2-csmsc
    Transformer TTS LJSpeech transformer-ljspeech
    SpeedySpeech CSMSC speedyspeech-csmsc
    FastSpeech2 LJSpeech / VCTK / CSMSC / AISHELL-3 / ZH\_EN / fine-tuning fastspeech2-ljspeech / fastspeech2-vctk / fastspeech2-csmsc / fastspeech2-aishell3 / fastspeech2-zh\_en / fastspeech2-fine-tuning
    ERNIE-SAT VCTK / AISHELL-3 / ZH\_EN ERNIE-SAT-vctk / ERNIE-SAT-aishell3 / ERNIE-SAT-zh\_en
    DiffSinger Opencpop DiffSinger-opencpop
    ```markdown
    Вокодер WaveFlow LJSpeech waveflow-ljspeech
    Parallel WaveGAN LJSpeech / VCTK / CSMSC / AISHELL-3 / Opencpop PWGAN-ljspeech / PWGAN-vctk / PWGAN-csmsc / PWGAN-aishell3 / PWGAN-opencpop
    Multiband MelGAN CSMSC Multiband MelGAN-csmsc
    Style MelGAN CSMSC Style MelGAN-csmsc
    HiFiGAN LJSpeech / VCTK / CSMSC / AISHELL-3 / Opencpop HiFiGAN-ljspeech / HiFiGAN-vctk / HiFiGAN-csmsc / HiFiGAN-aishell3 / HiFiGAN-opencpop
    WaveRNN CSMSC WaveRNN-csmsc
    Голосовое клонирование GE2E Librispeech и т. д. GE2E
    SV2TTS (GE2E + Tacotron2) AISHELL-3 VC0
    SV2TTS (GE2E + FastSpeech2) AISHELL-3 VC1
    SV2TTS (ECAPA-TDNN + FastSpeech2) AISHELL-3 VC2
    ``` GE2E + VITS AISHELL-3 VITS-VC Полносвязное обучение VITS CSMSC / AISHELL-3 VITS-csmsc / VITS-aishell3 ``````**Классификация аудио**
    Задача Датасет Тип модели Пример
    Классификация аудио ESC-50 PANN pann-esc50

    Обнаружение ключевых слов

    Задача Датасет Тип модели Пример
    Обнаружение ключевых слов hey-snips MDTC mdtc-hey-snips

    Проверка голоса

    Задача Датасет Тип модели Пример
    Проверка голоса VoxCeleb1/2 ECAPA-TDNN ecapa-tdnn-voxceleb12

    Диаризация говорящих

    Задача Датасет Тип модели Пример
    Диаризация говорящих AMI ECAPA-TDNN + AHC / SC ecapa-tdnn-ami

    Восстановление пунктуации

    Задача Датасет Тип модели Пример
    Восстановление пунктуации IWLST2012_zh Ernie Linear iwslt2012-punc0
    ## Документы

    Обычно, Speech SoTA, Audio SoTA и Music SoTA предоставляют общее представление о популярных академических темах в соответствующей области. Чтобы сосредоточиться на задачах в PaddleSpeech, следующие руководства помогут вам понять основные идеи:

    ⭐ Примеры

    • PaddleBoBo: Используйте PaddleSpeech TTS для генерации голоса виртуального человека.
    - [Демонстрационное видео PaddleSpeech](https://paddlespeech.readthedocs.io/en/latest/demo_video.html)
    • VTuberTalk: Используйте PaddleSpeech TTS и ASR для клонирования голоса с видео.

    Цитирование

    Чтобы цитировать PaddleSpeech в научной работе, пожалуйста, используйте следующий формат.

    @inproceedings{zhang2022paddlespeech,
        title = {PaddleSpeech: Инструментарий для работы со звуками},
        author = {Хуи Чжан, Тян Юань, Жункун Чень, Синьтонг Ли, Ренцзи Чжэн, Юксин Хуанг, Сяоцзе Чен, Энлай Гонг, Цейю Чен, Сяогуаньг Ху, Дианхай Ю, Яньджун Ма, Лянг Хуан},
        booktitle = {Программы конференций Североамериканского отделения Ассоциации вычислительной лингвистики: технологии человеческого языка},
        year = {2022},
        publisher = {Ассоциация вычислительной лингвистики},
    }
    ``````markdown
    @InProceedings{pmlr-v162-bai22d,
      title = {{$A}^3{T}$: учет совпадений при обучении акустических и текстовых моделей для синтеза речи и её редактирования}},
      author = {Бэй, Хэ и Чжэн, Ренчжи и Чень, Жункун и Ма, Минбо и Ли, Синьтонг и Хуан, Лянг},
      booktitle = {Программы Международной конференции по машинному обучению},
      pages = {1399--1411},
      year = {2022},
      volume = {162},
      series = {Программы исследования обучения машины},
      month = {17--23 июля},
      publisher = {PMLR},
      pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
      url = {https://proceedings.mlr.press/v162/bai22d.html},
    }
    
    @inproceedings{zheng2021fused,
      title = {Объединённая акустическая и текстовая закодировка для многомодального билингового предобучения и перевода речи},
      author = {Чжэн, Ренчжи и Чень, Жункун и Ма, Минбо и Хуан, Лянг},
      booktitle = {Международная конференция по машинному обучению},
      pages = {12736--12746},
      year = {2021},
      organization = {PMLR}
    }

    Внесение вклада в PaddleSpeech

    Вы всегда приветствуетесь к отправке вопросов в дискуссиях и отчетов об ошибках в задачах! Также мы очень благодарны за вашу готовность внести свой вклад в этот проект!

    Участники

    ``````markdown

    Благодарность

    • Огромное спасибо HighCWu за добавление примеров VITS-aishell3 и VITS-VC.

    • Огромное спасибо david-95.com/david-95) за исправление ошибки с многоточием, внесение множества улучшений в программы и данные, а также добавление SSML для передней части текста TTS на китайском языке.

      • Огромное спасибо BarryKCL за улучшение передней части текста TTS на китайском языке на основе G2PW.
      • Огромное спасибо yeyupiaoling/PPASR/PaddlePaddle-DeepSpeech/VoiceprintRecognition-PaddlePaddle/AudioClassification-PaddlePaddle за годы внимательной работы, конструктивных советов и большого вклада.
      • Огромное спасибо mymagicpower за реализацию ASR на Java для коротких (short) и длинных (long) аудиофайлов.
      • Огромное спасибо JiehangXie/PaddleBoBo за создание Виртуального Загрузчика (VUP)/Виртуального Ютубера (VTuber) с использованием функции TTS PaddleSpeech.
      • Огромное спасибо 745165806/PaddleSpeechTask за внесение модели восстановления пунктуации.
      • Огромное спасибо kslz за дополнительные китайские документы.
      • Огромное спасибо awmmmm за внесение модели предобученной на данных fastspeech2 aishell3 conformer.
      • Огромное спасибо phecda-xucom/phecda-xu)/PaddleDubbing за создание инструмента для дублирования с графическим интерфейсом на основе модели TTS PaddleSpeech.
      • Огромное спасибо jerryuhoo/VTuberTalk за создание графического инструмента на основе TTS PaddleSpeech и кода для создания наборов данных из видео на основе ASR PaddleSpeech.
      • Огромное спасибо vpegasus/xuesebot. (Ссылка на проект: vpegasus/xuesebot) за развитие чат-бота на основе Rasa, который может говорить и слушать благодаря PaddleSpeech.- Благодарю chenkui164/FastASR за реализацию вывода на C++ для распознавания речи в PaddleSpeech.
    • Благодарю heyudage/VoiceTyping за реализацию инструмента для реального времени голосового набора текста для потоковых услуг распознавания речи в PaddleSpeech.

    • Благодарю EscaticZheng/ps3.9wheel-install за готовый Python 3.9 wheel для установки PaddleSpeech на Windows без использования Visual Studio.

    Кроме того, PaddleSpeech зависит от многих открытых репозиториев. Для получения более подробной информации см. раздел ссылки.

    Лицензия

    PaddleSpeech предоставляется под лицензией Apache-2.0.

    Количество звезд со временем

    Количество звезд со временем

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Easy-to-use Speech Toolkit including SOTA ASR pipeline, influential TTS with text frontend and End-to-End Speech Simultaneous Translation. Развернуть Свернуть
Python и 6 других языков
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/paddlepaddle-PaddleSpeech.git
git@api.gitlife.ru:oschina-mirror/paddlepaddle-PaddleSpeech.git
oschina-mirror
paddlepaddle-PaddleSpeech
paddlepaddle-PaddleSpeech
develop