(упрощенный китайский | Русский)
------------------------------------------------------------------------------------PaddleSpeech — это открытый набор инструментов на платформе PaddlePaddle для выполнения различных задач в области речи и аудио с использованием передовых и влиятельных моделей. PaddleSpeech выиграл NAACL2022 Best Demo Award, пожалуйста, проверьте нашу статью на Arxiv.
Входной аудио | Результат распознавания |
---|---|
![]() |
I knocked at the door on the ancient side of the building. |
![]() |
Я считаю, что самое важное в бегах — это то, что они приносят мне здоровье. |
Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, ЗзиЗдесь содержится повторяющийся текст на китайском языке, который можно перевести следующим образом:
Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, Ззи ззи идет, ЗзиЖи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи идёт, Жи жи```markdown
У каждой страны есть свой гимн |
![]() |
Исходный текст | Выходной текст |
---|---|
今天的天气真不错啊你下午有空吗我想约你一起去吃饭 | Сегодня погода просто замечательная! У тебя есть время после обеда? Я хотел бы пригласить тебя пообедать со мной. |
С помощью удобного в использовании, эффективного, гибкого и масштабируемого решения наша цель — обеспечить как промышленное применение, так и академическое исследование, включая модули обучения, вывода и тестирования, а также процесс развертывания. Более конкретно, этот набор инструментов имеет следующие особенности:- 📦 Удобство использования: низкие барьеры для установки, CLI, сервер и стриминговый сервер доступны для быстрого старта.
PaddleSpeech Streaming Server
для Streaming ASR
с восстановлением пунктуации
и временными метками токенов
и Text-to-Speech
.PaddleSpeech Server
для Аудио классификации
, Автоматического распознавания речи
, Text-to-Speech
, Проверки говорящего
и восстановления пунктуации
.PaddleSpeech CLI
для аудио классификации
, автоматического распознавания речи
, перевода речи (английский на китайский)
и text-to-speech
. ### СообществоМы настоятельно рекомендуем нашим пользователям установить PaddleSpeech в Linux с Python>=3.8 и PaddlePaddle<=2.5.1. Некоторые новые версии Paddle не поддерживают адаптацию в PaddleSpeech, поэтому в настоящее время поддерживаются только версии 2.5.1 и более ранние.
PaddleSpeech зависит от PaddlePaddle. Для установки обратитесь к официальной странице PaddlePaddle и выберите подходящий вариант для вашего оборудования. Вот пример установки для CPU.
pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
Вы также можете указать конкретную версию PaddlePaddle или установить разработческую версию.
# установка версии 2.4.1. Примечание: 2.4.1 — это просто пример, пожалуйста, следуйте минимальным зависимостям PaddlePaddle при выборе
pip install paddlepaddle==2.4.1 -i https://mirror.baidu.com/pypi/simple
# установка разработческой версии
pip install paddlepaddle==0.0.0 -f https://www.paddlepaddle.org.cn/whl/linux/cpu-mkl/develop.html
Для PaddleSpeech есть два быстрых метода установки: через pip и компиляцию исходного кода (рекомендуется).
pip install pytest-runner
pip install paddlespeech
git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .
```Для решения других проблем установки, таких как среда Conda, зависимость от librosa, проблемы с GCC, установка Kaldi и т.д., вы можете обратиться к этому [документу по установке](./docs/source/install.md). Если вы столкнулись с проблемами во время установки, вы можете оставить сообщение на [#2150](https://github.com/PaddlePaddle/PaddleSpeech/issues/2150) и найти связанные проблемы.<a name="quickstart"></a>
## Быстрый старт
Разработчики могут попробовать наши модели с помощью [командной строки PaddleSpeech](./paddlespeech/cli/README.md) или Python. Измените `--input`, чтобы протестировать своё аудио/текст, поддерживаются аудиофайлы в формате 16k wav.
**Вы также можете быстро оценить его в AI Studio 👉🏻 [Демо API PaddleSpeech](https://aistudio.baidu.com/aistudio/projectdetail/4353348?sUid=2470186&shared=1&ts=1660876445786)**
Загрузка тестовых образцов аудио
```shell
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav
Опыт работы с командной строкой
paddlespeech asr --lang zh --input zh.wav
Опыт работы с API Python
>>> from paddlespeech.cli.asr.infer import ASRExecutor
>>> asr = ASRExecutor()
>>> result = asr(audio_file="zh.wav")
>>> print(result)
Я считаю, что самое важное в беге — это то, что он приносит мне здоровье.
Опыт работы с командной строкой
paddlespeech tts --input "Привет, добро пожаловать использовать глубинное обучение Baidu Paddle!" --output output.wav
Опыт работы с API Python
>>> from paddlespeech.cli.tts.infer import TTSExecutor
>>> tts = TTSExecutor()
>>> tts(text="Сегодня погода отличная.", output="output.wav")
Модели классификации звука на основе набора данных AudioSet с Yöntem 527 категориями
Опыт работы с командной строкой
paddlespeech cls --input zh.wav
Опыт работы с API Python
>>> from paddlespeech.cli.cls.infer import CLSExecutor
>>> cls = CLSExecutor()
>>> result = cls(audio_file="zh.wav")
>>> print(result)
{'Speech': 0.9027186632156372}
Опыт работы с командной строкой
paddlespeech vector --task spk --input zh.wav
>>> from paddlespeech.cli.vector import VectorExecutor
>>> vec = VectorExecutor()
>>> result = vec(audio_file="zh.wav")
>>> print(result) # 187-мерный вектор
[-0.19083306, 9.474295, -14.122263, -2.0916545, 0.04848729,
4.9295826, 1.4780062, 0.3733844, 10.695862, 3.2697146,
-4.48199, -0.6617882, -9.170393, -11.1568775, -1.2358263...]
Опыт работы через командную строку
paddlespeech текст --задача punc --ввод "今天的天气真不错啊你下午有空吗我想约你一起去吃饭"
Опыт использования Python API
>>> from paddlespeech.cli.text.infer import TextExecutor
>>> text_punc = TextExecutor()
>>> result = text_punc(текст="今天的天气真不错啊你下午有空吗我想约你一起去吃饭")
'今天的天气真不错啊!你下午有空吗?我想约你一起去吃饭。'
Использует предварительно скомпилированные инструменты Kaldi, поддерживаются только опыт работы в системах Ubuntu
Опыт работы через командную строку
paddlespeech st --ввод en.wav
Опыт использования Python API
>>> from paddlespeech.cli.st.infer import STExecutor
>>> st = STExecutor()
>>> result = st(аудио_файл="en.wav")
['я в этом здании старой дверью стучу.']
Разработчики могут попробовать наш сервер распознавания речи с помощью PaddleSpeech Server Command Line.
Вы можете быстро попробовать его в AI Studio (рекомендовано): SpeechServer
Запустить сервер
paddlespeech_server start --конфиг_файл ./demos/speech_server/conf/application.yaml
Доступ к услугам распознавания речи ```shell paddlespeech_client asr --сервер_ip 127.0.0.1 --порт 8090 --ввод input_16k.wav
**Доступ к услугам распознавания речи**
```shell
paddlespeech_client tts --сервер_ip 127.0.0.1 --порт 8090 --ввод "Привет, добро пожаловать в сервис синтеза речи от Baidu Paddle." --выход output.wav
Доступ к сервисам классификации аудио
paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wav
Для получения более подробной информации о командных строках сервера, пожалуйста, обратитесь к: примеры использования сервера
Разработчики могут попробовать потоковое распознавание речи и потоковый синтез речи серверы.
Запуск сервера потокового распознавания речи
paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml
Доступ к сервисам потокового распознавания речи
paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav
Запуск сервера потокового синтеза речи
paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml
Доступ к сервисам потокового синтеза речи
paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "Привет, добро пожаловать в систему.baidu.flypaddle.synthesis.service." --output output.wav
Для получения более подробной информации обратитесь к: потоковое распознавание речи и потоковый синтез речи
PaddleSpeech поддерживает ряд самых популярных моделей. Они суммированы в открытых моделях и предоставляются доступными предобученными моделями.
Система распознавания речи включает акустическую модель, лингвистическую модель и модель машинного перевода, с последующими подробностями:
Тип модуля распознавания речи | Набор данных | Тип модели | Пример |
---|---|---|---|
Распознавание речи | Aishell | Глубокое обучение DeepSpeech2 с использованием RNN и свёрточной нейронной сети | deepspeech2-aishell |
Модели на основе внимания с использованием Transformer | u2.transformer.conformer-aishell | ||
Librispeech | Модели на основе внимания с использованием Transformer | deepspeech2-librispeech / transformer.conformer.u2-librispeech / transformer.conformer.u2-kaldi-librispeech | |
TIMIT | Объединённое потоковое и непотоковое двухпроходное моделирование | u2-timit | |
Выравнивание | THCHS30 | MFA | mfa-thchs30 |
Лингвистическая модель | N-граммовая лингвистическая модель | kenlm | |
Перевод речи (английский язык в китайский) | TED En-Zh | Transformer + ASR MTL | transformer_asr_translation_en_zh |
Тип модуля преобразования текста в речь | Тип модели | Набор данных | Пример |
---|---|---|---|
Текстовый фронтенд | tn / g2p | ||
Акустическая модель | Tacotron2 | LJSpeech / CSMSC | tacotron2-ljspeech / tacotron2-csmsc |
Transformer TTS | LJSpeech | transformer-ljspeech | |
SpeedySpeech | CSMSC | speedyspeech-csmsc | |
FastSpeech2 | LJSpeech / VCTK / CSMSC / AISHELL-3 / ZH\_EN / fine-tuning | fastspeech2-ljspeech / fastspeech2-vctk / fastspeech2-csmsc / fastspeech2-aishell3 / fastspeech2-zh\_en / fastspeech2-fine-tuning | |
ERNIE-SAT | VCTK / AISHELL-3 / ZH\_EN | ERNIE-SAT-vctk / ERNIE-SAT-aishell3 / ERNIE-SAT-zh\_en | |
DiffSinger | Opencpop | DiffSinger-opencpop |
Вокодер | WaveFlow | LJSpeech | waveflow-ljspeech |
Parallel WaveGAN | LJSpeech / VCTK / CSMSC / AISHELL-3 / Opencpop | PWGAN-ljspeech / PWGAN-vctk / PWGAN-csmsc / PWGAN-aishell3 / PWGAN-opencpop | |
Multiband MelGAN | CSMSC | Multiband MelGAN-csmsc | |
Style MelGAN | CSMSC | Style MelGAN-csmsc | |
HiFiGAN | LJSpeech / VCTK / CSMSC / AISHELL-3 / Opencpop | HiFiGAN-ljspeech / HiFiGAN-vctk / HiFiGAN-csmsc / HiFiGAN-aishell3 / HiFiGAN-opencpop | |
WaveRNN | CSMSC | WaveRNN-csmsc | |
Голосовое клонирование | GE2E | Librispeech и т. д. | GE2E |
SV2TTS (GE2E + Tacotron2) | AISHELL-3 | VC0 | |
SV2TTS (GE2E + FastSpeech2) | AISHELL-3 | VC1 | |
SV2TTS (ECAPA-TDNN + FastSpeech2) | AISHELL-3 | VC2 |
Задача | Датасет | Тип модели | Пример |
---|---|---|---|
Классификация аудио | ESC-50 | PANN | pann-esc50 |
Обнаружение ключевых слов
Задача | Датасет | Тип модели | Пример |
---|---|---|---|
Обнаружение ключевых слов | hey-snips | MDTC | mdtc-hey-snips |
Проверка голоса
Задача | Датасет | Тип модели | Пример |
---|---|---|---|
Проверка голоса | VoxCeleb1/2 | ECAPA-TDNN | ecapa-tdnn-voxceleb12 |
Диаризация говорящих
Задача | Датасет | Тип модели | Пример |
---|---|---|---|
Диаризация говорящих | AMI | ECAPA-TDNN + AHC / SC | ecapa-tdnn-ami |
Восстановление пунктуации
Задача | Датасет | Тип модели | Пример |
---|---|---|---|
Восстановление пунктуации | IWLST2012_zh | Ernie Linear | iwslt2012-punc0 |
Обычно, Speech SoTA, Audio SoTA и Music SoTA предоставляют общее представление о популярных академических темах в соответствующей области. Чтобы сосредоточиться на задачах в PaddleSpeech, следующие руководства помогут вам понять основные идеи:
Учебники
ЛицензияМодуль "Текст в речь" ранее назывался Parakeet, но теперь он объединён с этим репозиторием. Если вас интересует академическая работа над этой задачей, пожалуйста, обратитесь к общему обзору исследований TTS. Также этот документ является хорошим руководством для компонентов конвейера.
Чтобы цитировать PaddleSpeech в научной работе, пожалуйста, используйте следующий формат.
@inproceedings{zhang2022paddlespeech,
title = {PaddleSpeech: Инструментарий для работы со звуками},
author = {Хуи Чжан, Тян Юань, Жункун Чень, Синьтонг Ли, Ренцзи Чжэн, Юксин Хуанг, Сяоцзе Чен, Энлай Гонг, Цейю Чен, Сяогуаньг Ху, Дианхай Ю, Яньджун Ма, Лянг Хуан},
booktitle = {Программы конференций Североамериканского отделения Ассоциации вычислительной лингвистики: технологии человеческого языка},
year = {2022},
publisher = {Ассоциация вычислительной лингвистики},
}
``````markdown
@InProceedings{pmlr-v162-bai22d,
title = {{$A}^3{T}$: учет совпадений при обучении акустических и текстовых моделей для синтеза речи и её редактирования}},
author = {Бэй, Хэ и Чжэн, Ренчжи и Чень, Жункун и Ма, Минбо и Ли, Синьтонг и Хуан, Лянг},
booktitle = {Программы Международной конференции по машинному обучению},
pages = {1399--1411},
year = {2022},
volume = {162},
series = {Программы исследования обучения машины},
month = {17--23 июля},
publisher = {PMLR},
pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
url = {https://proceedings.mlr.press/v162/bai22d.html},
}
@inproceedings{zheng2021fused,
title = {Объединённая акустическая и текстовая закодировка для многомодального билингового предобучения и перевода речи},
author = {Чжэн, Ренчжи и Чень, Жункун и Ма, Минбо и Хуан, Лянг},
booktitle = {Международная конференция по машинному обучению},
pages = {12736--12746},
year = {2021},
organization = {PMLR}
}
Вы всегда приветствуетесь к отправке вопросов в дискуссиях и отчетов об ошибках в задачах! Также мы очень благодарны за вашу готовность внести свой вклад в этот проект!
Огромное спасибо HighCWu за добавление примеров VITS-aishell3 и VITS-VC.
Огромное спасибо david-95.com/david-95) за исправление ошибки с многоточием, внесение множества улучшений в программы и данные, а также добавление SSML для передней части текста TTS на китайском языке.
Благодарю heyudage/VoiceTyping за реализацию инструмента для реального времени голосового набора текста для потоковых услуг распознавания речи в PaddleSpeech.
Благодарю EscaticZheng/ps3.9wheel-install за готовый Python 3.9 wheel для установки PaddleSpeech на Windows без использования Visual Studio.
Кроме того, PaddleSpeech зависит от многих открытых репозиториев. Для получения более подробной информации см. раздел ссылки.
Благодарю chinobing/FastAPI-PaddleSpeech-Audio-To-Text за конвертацию аудио в текст с использованием FastAPI и PaddleSpeech.
Благодарю MistEO/Pallas-Bot за бота для QQ на основе PaddleSpeech TTS.
PaddleSpeech предоставляется под лицензией Apache-2.0.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )