OSCHINA-MIRROR/paddlepaddle-DeepSpeech

Быстрый старт | Документация | Список моделей | Курсы AIStudio | Победитель награды за лучшее демонстрационное приложение NAACL2022 | Gitee

------------------------------------------------------------------------------------PaddleSpeech — это открытый набор инструментов на платформе PaddlePaddle для выполнения различных задач в области речи и аудио с использованием передовых и влиятельных моделей. PaddleSpeech выиграл NAACL2022 Best Demo Award, пожалуйста, проверьте нашу статью на Arxiv.

Распознавание речи

Входной аудио	Результат распознавания
	I knocked at the door on the ancient side of the building.
	Я считаю, что самое важное в бегах — это то, что они приносят мне здоровье.

Перевод речи (английский в китайский)

Входной аудио	Результат перевода
	我在这栋建筑的古老门上敲门。

##### Преобразование текста в речь

Вводный текст Синтетический аудио

Жизнь — это как коробка шоколадов, ты никогда не знаешь, что получишь.

Доброе утро, сегодня 2020/10/29, минимальная температура −3°C.

Жижи, Жи жи, Жи жи. Жи жи жаждет, Жи жи и Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, ЖиЖи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи.Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи.Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут```markdown


У каждой страны есть свой гимн

```Для получения более синтезированных аудио, обратитесь к [примерам PaddleSpeech Text-to-Speech](https://paddlespeech.readthedocs.io/en/latest/tts/demo.html).

Восстановление пунктуации

Исходный текст	Выходной текст
今天的天气真不错啊你下午有空吗我想约你一起去吃饭	Сегодня погода просто замечательная! У тебя есть время после обеда? Я хотел бы пригласить тебя пообедать со мной.

Возможности

С помощью удобного в использовании, эффективного, гибкого и масштабируемого решения наша цель — обеспечить как промышленное применение, так и академическое исследование, включая модули обучения, вывода и тестирования, а также процесс развертывания. Более конкретно, этот набор инструментов имеет следующие особенности:- 📦 Удобство использования: низкие барьеры для установки, CLI, сервер и стриминговый сервер доступны для быстрого старта.

🏆 Совместимость с передовыми технологиями: мы предоставляем модели высокой скорости и сверхлёгкие модели, а также передовые технологии.
🏆 Потоковая система распознавания речи и синтеза речи: мы предлагаем готовые к использованию потоковые системы распознавания речи и синтеза речи.
💯 Основанный на правилах китайский фронтенд: наш фронтенд включает нормализацию текста и преобразование графем в фонемы (G2P, включая полифонию и тональную санджу). Кроме того, мы используем самостоятельно определённые лингвистические правила для адаптации к контексту китайского языка.
📦 Различные функции, активирующие как промышленность, так и академию:
- 🛎️ Имплементация критических задач работы с аудио: этот набор инструментов содержит аудиофункции, такие как автоматическое распознавание речи, синтез речи, верификация говорящего, поиск ключевых слов, классификация аудио и перевод речи, и т. д.
- 🔬 Интеграция основных моделей и наборов данных: набор инструментов реализует модули, участвующие во всём цикле выполнения задачи с речью, и использует основные наборы данных, такие как LibriSpeech, LJSpeech, AIShell, CSMSC и т. д. Подробнее см. список моделей. - 🧩 Применение последовательных моделей: как расширение типичных традиционных задач работы с аудио, мы объединяем рабочие процессы этих задач с другими областями, такими как естественный язык (NLP) и компьютерное зрение (CV). ### Последние обновления
👑 2023. 03. 09: Добавлено Wav2vec2ASR-zh.
🎉 2023. 03. 07: Добавлено TTS ARM Linux C++ Demo.
🔥 2023. 03. 03: Добавлено Voice Conversion StarGANv2-VC synthesize pipeline.
🎉 2023. 02. 16: Добавлено Cantonese TTS.
🔥 2023. 01. 10: Добавлено code-switch asr CLI и Demos.
👑 2023. 01. 06: Добавлено code-switch asr tal_cs рецепт.
🎉 2022. 12. 02: Добавлено end-to-end Prosody Prediction pipeline (включает использование меток intonation в Acoustic Model).
🎉 2022. 11. 30: Добавлено TTS Android Demo.
🤗 2022. 11. 28: PP-TTS и PP-ASR демонстрационные примеры доступны в AIStudio и официальном сайте PaddlePaddle.
👑 2022. 11. 18: Добавлено Whisper CLI и Demos, поддержка распознавания речи и перевода на несколько языков.
🔥 2022. 11. 18: Добавлено Wav2vec2 CLI и Demos, поддержка ASR и извлечение признаков.
🎉 2022. 11. 17: Добавлено мужской голос для TTS.
🔥 2022. 11. 07: Добавлено U2/U2++ C++ High Performance Streaming ASR Развертывание.
👑 2022. 11. 01: Добавлено Adversarial Loss для Chinese English mixed TTS. - 🔥 26.10.2022: Добавлено Prosody Prediction для TTS.
🎉 21.10.2022: Добавлено SSML для TTS китайского текстового фронта.
👑 11.10.2022: Добавлено Wav2vec2ASR-en, wav2vec2.0 fine-tuning для ASR на LibriSpeech.
🔥 26.09.2022: Добавлено Voice Cloning, TTS fine-tune, и ERNIE-SAT в PaddleSpeech Web Demo.
⚡ 09.09.2022: Добавлено AISHELL-3 Voice Cloning example с ECAPA-TDNN speaker encoder.
⚡ 25.08.2022: Выпущен TTS fine-tune example.
🔥 22.08.2022: Добавлено ERNIE-SAT модели: ERNIE-SAT-vctk, ERNIE-SAT-aishell3, ERNIE-SAT-zh_en.
🔥 15.08.2022: Добавлен g2pW в TTS китайский текстовый фронтенд.
🔥 09.08.2022: Выпущен TTS с перемешиванием китайского и английского языков.
⚡ 03.08.2022: Добавлена инференция ONNXRuntime для TTS CLI.
🎉 18.07.2022: Выпущен VITS: VITS-csmsc, VITS-aishell3, VITS-VC.
🎉 22.06.2022: Все модели TTS поддерживают формат ONNX.
🍀 17.06.2022: Добавлен Web-демонстрация PaddleSpeech.
👑 13.05.2022: Выпущен PP-ASR, PP-TTS, PP-VPR.
👏🏻 06.05.2022: Доступна PaddleSpeech Streaming Server для Streaming ASR с восстановлением пунктуации, метками времени и синтезом речи.2022: Доступна PaddleSpeech Server для классификации аудио, автоматического распознавания речи, синтеза речи, идентификации говорящего и восстановления пунктуации.
👏🏻 28. 03. 2022: Доступна PaddleSpeech CLI для идентификации говорящего.
👏🏻 10. 12. 2021: Доступна PaddleSpeech CLI для классификации аудио, автоматического распознавания речи, перевода речи (английский на китайский) и синтеза речи.

Сообщество

Сканируйте QR-код ниже с помощью WeChat, чтобы получить доступ к официальному сообществу по обмену технологиями и получить бонус (более 20 ГБ учебных материалов, таких как статьи, коды и видео) и прямую ссылку на занятия. Жду вашей участия.

Установка

Мы настоятельно рекомендуем нашим пользователям установить PaddleSpeech в Linux с Python>=3.7 и PaddlePaddle>=2.4.1.

Введение в зависимости

gcc >= 4.8.5
PaddlePaddle >= 2.4.1
Python >= 3.7
Поддерживаемые ОС: Linux (рекомендовано), Windows, Mac OS X

PaddleSpeech зависит от PaddlePaddle. Для установки обратитесь к официальной странице PaddlePaddle и выберите подходящий вариант для вашего оборудования. Вот пример установки версии для CPU.

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

Вы также можете указать конкретную версию PaddlePaddle или установить версию для разработчиков.

# установка версии 2.4.1. Примечание: bkz 2.4.1 — это просто пример, пожалуйста, следуйте минимальным зависимостям PaddlePaddle при выборе
pip install paddlepaddle==2.4.1 -i https://mirror.baidu.com/pypi/simple
# установка версии для разработчиков
pip install paddlepaddle==0.0.0 -f https://www.paddlepaddle.org.cn/whl/linux/cpu-mkl/develop.html

Для PaddleSpeech есть два быстрых метода установки: через pip и компиляцию исходного кода (рекомендуется).

Установка через pip

pip install pytest-runner
pip install paddlespeech

Компиляция исходного кода

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .
```Для решения проблем с установкой, такими как среда Conda, зависимость от librosa, проблемы с GCC, установка Kaldi и т. д., вы можете обратиться к этому [документу по установке](./docs/source/install.md). Если вы столкнулись с проблемами во время установки, вы можете оставить сообщение на [#2150](https://github.com/PaddlePaddle/PaddleSpeech/issues/2150) и найти связанные проблемы.<a name="quickstart"></a>
## Быстрый старт

Разработчики могут протестировать наши модели с помощью [PaddleSpeech Command Line](./paddlespeech/cli/README.md) или Python. Измените `--input`, чтобы протестировать свои аудиофайлы/тексты и поддерживать аудиофайлы формата 16k wav. **Вы также можете быстро протестировать его в AI Studio 👉🏻 [Демонстрация PaddleSpeech API](https://aistudio.baidu.com/aistudio/projectdetail/4353348?sUid=2470186&shared=1&ts=1660876445786)**


Пример аудиофайла для скачивания

```shell
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

Автоматическое распознавание речи

(Нажмите, чтобы развернуть) Открытый исходный код для распознавания речи

Опыт работы с командной строкой

paddlespeech asr --lang zh --input zh.wav

Опыт работы с Python API

>>> from paddlespeech.cli.asr.infer import ASRExecutor
>>> asr = ASRExecutor()
>>> result = asr(audio_file="zh.wav")
>>> print(result)
Я считаю, что самое важное в беге — это то, что он приносит мне здоровье

Преобразование текста в речь

Открытый исходный код для синтеза речи

Аудиофайл с частотой дискретизации 24кГц

Опыт работы с командной строкой

paddlespeech tts --input "Здравствуйте, добро пожаловать использовать глубокую нейронную сеть Baidu Paddle!" \
--output output.wav

Опыт работы с Python API

>>> from paddlespeech.cli.tts.infer import TTSExecutor
>>> tts = TTSExecutor()
>>> tts(text="Сегодня погода отличная.", output="output.wav")

Вы можете протестировать в Huggingface Spaces Демонстрация TTS

Классификация аудиофайлов

Инструмент для классификации звука открытого типа

Модель классификации звука на основе набора данных AudioSet с Yöntemler

Опыт работы с командной строкой

paddlespeech cls --input zh.wav

Опыт работы с Python API

>>> from paddlespeech.cli.cls.infer import CLSExecutor
>>> cls = CLSExecutor()
>>> result = cls(audio_file="zh.wav")
>>> print(result)
Речь 0.9027186632156372

Извлечение голосового отпечатка

Профессиональный инструмент для извлечения голосового отпечатка

Опыт работы с командной строкой

paddlespeech vector --task spk --input zh.wav

Опыт работы с Python API

>>> from paddlespeech.cli.vector import VectorExecutor
>>> vec = VectorExecutor()
>>> result = vec(audio_file="zh.wav")
>>> print(result) # 187-мерный вектор
[ -0.19083306   9.474295   -14.122263    -2.0916545    0.04848729
   4.9295826    1.4780062    0.3733844   10.695862     3.2697146
  -4.48199     -0.6617882   -9.170393   -11.1568775   -1.2358263 ...]

Восстановление пунктуации

Быстрое восстановление пунктуации текста, работает с моделями распознавания речи (ASR)

Опыт работы в командной строке

paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭

Опыт работы с Python API

>>> from paddlespeech.cli.text.infer import TextExecutor
>>> text_punc = TextExecutor()
>>> result = text_punc(text="今天的天气真不错啊你下午有空吗我想约你一起去吃饭")
今天的天气真不错啊！你下午有空吗？我想约你一起去吃饭。

Перевод речи
Инструмент полносвязного перевода английской речи на русский язык

Использует заранее скомпилированные инструменты Kaldi, поддерживает опыт работы только в системах Ubuntu

Опыт работы в командной строке

paddlespeech st --input en.wav

Опыт работы с Python API

>>> from paddlespeech.cli.st.infer import STExecutor
>>> st = STExecutor()
>>> result = st(audio_file="en.wav")
[['Я стучусь в старую дверь этого здания.']]

Быстрый запуск сервера

Разработчики могут попробовать наш сервер распознавания речи с помощью PaddleSpeech Server Command Line.

Вы можете быстро попробовать его в AI Studio (рекомендовано): SpeechServer

Запустите сервер

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

Доступ к услугам распознавания речи

paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

Доступ к услугам преобразования текста в речь

paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "Здравствуйте, добро пожаловать использовать сервис синтеза речи компании Baidu." --output output.wav

Доступ к услугам классификации аудиофайлов

paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wav

Для получения более подробной информации о командных строках сервера, пожалуйста, обратитесь к: примеры использования сервера

Быстрый запуск поточного сервера

Разработчики могут попробовать сервер поточного распознавания речи и сервер поточного синтеза речи.

Запуск поточного сервера распознавания речи

paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml

Доступ к услугам поточного распознавания речи

paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

Запуск поточного сервера синтеза речи

paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml

Доступ к услугам поточного синтеза речи

paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "您好，欢迎使用百度飞桨语音合成服务。" --output output.wav

Дополнительная информация доступна здесь: поточный распознавание речи и поточный синтез речи

Список моделей

PaddleSpeech поддерживает ряд самых популярных моделей. Они подробно описаны в открытых моделях и прилагаются с обученными заранее моделями.

Распознавание речиСодержит акустическую модель, лингвистическую модель и перевод речи, с следующими деталями:

Тип модуля распознавания речи	Набор данных	Тип модели	Пример
Распознавание речи	Aishell	Глубокое обучение DeepSpeech2 с использованием RNN и свёрточной нейронной сети	deepspeech2-aishell
	Aishell	Модели на основе внимания с использованием Transformer	u2.transformer.conformer-aishell
	Librispeech	Модели на основе внимания с использованием Transformer	deepspeech2-librispeech / transformer.conformer.u2-librispeech / transformer.conformer.u2-kaldi-librispeech
	TIMIT	Объединённое потоковое и непотоковое двухпроходное моделирование	u2-timit
Выравнивание	THCHS30	MFA	mfa-thchs30
Лингвистическая модель	N-граммовая лингвистическая модель		kenlm
Перевод речи (английский язык в китайский)	TED En-Zh	Transformer + ASR MTL	transformer-ted

FAT + Transformer + ASR MTL fat-st-ted

**Текст-в-речь** в PaddleSpeech主要包括三个模块：*Текстовый фронтенд*, *Акустическая модель* и *Вокодер*. Акустические модели и модели вокодера приведены ниже: ```markdown

Тип модуля преобразования текста в речь	Тип модели	Набор данных	Пример
Текстовый фронтенд			tn / g2p
Акустическая модель	Tacotron2	LJSpeech / CSMSC	tacotron2-ljspeech / tacotron2-csmsc
	Модель Transformer TTS	LJSpeech	transformer-ljspeech
	SpeedySpeech	CSMSC	speedyspeech-csmsc
	FastSpeech2	LJSpeech / VCTK / CSMSC / AISHELL-3 / ZH_EN / fine-tuning	fastspeech2-ljspeech / fastspeech2-vctk / fastspeech2-csmsc / fastspeech2-aishell3 / fastspeech2-zh_en / fastspeech2-fine-tuning
	ERNIE-SAT	VCTK / AISHELL-3 / ZH_EN	ERNIE-SAT-vctk / ERNIE-SAT-aishell3 / ERNIE-SAT-zh_en
Вокодер	WaveFlow	LJSpeech	waveflow-ljspeech
	Параллельный WaveGAN	LJSpeech / VCTK / CSMSC / AISHELL-3	PWGAN-ljspeech / PWGAN-vctk / PWGAN-csmsc / PWGAN-aishell3

Многополосный MelGAN	CSMSC	Многополосный MelGAN-csmsc
Стилевой MelGAN	CSMSC	Стилевой MelGAN-csmsc
HiFiGAN	LJSpeech / VCTK / CSMSC / AISHELL-3	HiFiGAN-ljspeech / HiFiGAN-vctk / HiFiGAN-csmsc / HiFiGAN-aishell3
WaveRNN	CSMSC	WaveRNN-csmsc
Клонирование голоса	GE2E	Librispeech, etc.	GE2E
	SV2TTS (GE2E + Tacotron2)	AISHELL-3	VC0
	SV2TTS (GE2E + FastSpeech2)	AISHELL-3	VC1
	SV2TTS (ECAPA-TDNN + FastSpeech2)	AISHELL-3	VC2
	GE2E + VITS	AISHELL-3	VITS-VC
Полносвязное моделирование	VITS	CSMSC / AISHELL-3	VITS-csmsc / VITS-aishell3

``````html

/examples/csmsc/vits">VITS-csmsc / VITS-aishell3

```

Полный текст с исправлениями:

/examples/csmsc/vits">VITS-csmsc</a> / <a href="/examples/aishell3/vits">VITS-aishell3</a>

```html
<table>
  <tbody>
    <tr>
      <td><a href="/examples/csmsc/vits">VITS-csmsc</a> / <a href="/examples/aishell3/vits">VITS-aishell3</a></td>
    </tr>
  </tbody>
</table>
<a name="AudioClassification"></a>
```**Классификация аудио**

<table style="width:100%">
  <thead>
    <tr>
      <th>Задача</th>
      <th>Датасет</th>
      <th>Тип модели</th>
      <th>Пример</th>
    </tr>
  </thead>
  <tbody>
  <tr>
      <td>Классификация аудио</td>
      <td>ESC-50</td>
      <td>PANN</td>
      <td>
      <a href="./examples/esc50/cls0">pann-esc50</a>
      </td>
    </tr>
  </tbody>
</table>

<a name="KeywordSpotting"></a>

**Обнаружение ключевых слов**

<table style="width:100%">
  <thead>
    <tr>
      <th>Задача</th>
      <th>Датасет</th>
      <th>Тип модели</th>
      <th>Пример</th>
    </tr>
  </thead>
  <tbody>
  <tr>
      <td>Обнаружение ключевых слов</td>
      <td>hey-snips</td>
      <td>MDTC</td>
      <td>
      <a href="./examples/hey_snips/kws0">mdtc-hey-snips</a>
      </td>
    </tr>
  </tbody>
</table>

<a name="SpeakerVerification"></a>

**Проверка голоса**

<table style="width:100%">
  <thead>
    <tr>
      <th>Задача</th>
      <th>Датасет</th>
      <th>Тип модели</th>
      <th>Пример</th>
    </tr>
  </thead>
  <tbody>
  <tr>
      <td>Проверка голоса</td>
      <td>VoxCeleb1/2</td>
      <td>ECAPA-TDNN</td>
      <td>
      <a href="./examples/voxceleb/sv0">ecapa-tdnn-voxceleb12</a>
      </td>
    </tr>
  </tbody>
</table>

<a name="SpeakerDiarization"></a>

**Диаризация говорящих**

<table style="width:100%">
  <thead>
    <tr>
      <th>Задача</th>
      <th>Датасет</th>
      <th>Тип модели</th>
      <th>Пример</th>
    </tr>
  </thead>
  <tbody>
  <tr>
      <td>Диаризация говорящих</td>
      <td>AMI</td>
      <td>ECAPA-TDNN + AHC / SC</td>
      <td>
      <a href="./examples/ami/sd0">ecapa-tdnn-ami</a>
      </td>
    </tr>
  </tbody>
</table>

<a name="PunctuationRestoration"></a>

**Восстановление пунктуации**

<table style="width:100%">
  <thead>
    <tr>
      <th>Задача</th>
      <th>Датасет</th>
      <th>Тип модели</th>
      <th>Пример</th>
    </tr>
  </thead>
  <tbody>
  <tr>
      <td>Восстановление пунктуации</td>
      <td>IWLST2012_zh</td>
      <td>Ernie Linear</td>
      <td>
      <a href="./examples/iwslt2012/punc0">iwslt2012-punc0</a>
      </td>
    </tr>
  </tbody>
</table>## Документы

Обычно, [Speech SoTA](https://paperswithcode.com/area/speech), [Audio SoTA](https://paperswithcode.com/area/audio) и [Music SoTA](https://paperswithcode.com/area/music) предоставляют общее представление о популярных академических темах в соответствующей области. Чтобы сосредоточиться на задачах в PaddleSpeech, следующие руководства помогут вам понять основные идеи:

- [Установка](./docs/source/install.md)
- [Быстрый старт](#quickstart)
- [Некоторые демонстрационные примеры](./demos/README.md)
- Учебники
  - [Автоматическое распознавание речи](./docs/source/asr/quick_start.md)
    - [Введение](./docs/source/asr/models_introduction.md)
    - [Подготовка данных](./docs/source/asr/data_preparation.md)
    - [Ngram LM](./docs/source/asr/ngram_lm.md)
  - [Текст в речь](./docs/source/tts/quick_start.md)
    - [Введение](./docs/source/tts/models_introduction.md)
    - [Расширенное использование](./docs/source/tts/advanced_usage.md)
    - [Китайская базовая модель текстового фронтенда](./docs/source/tts/zh_text_frontend.md)
    - [Примеры аудио](https://paddlespeech.readthedocs.io/en/latest/tts/demo.html)
  - [Верификация говорящего](. /demos/speaker_verification/README. md)
    - [Поиск аудиофайлов](. /demos/audio_searching/README. md)
  - [Классификация аудио](. /demos/audio_tagging/README. md)
  - [Перевод речи](. /demos/speech_translation/README. md)
  - [Сервер речи](. /demos/speech_server/README. md)

- [Открытые модели](./docs/source/released_model.md)
  - [Речь в текст](#SpeechToText)
  - [Текст в речь](#TextToSpeech)
  - [Классификация аудио](#AudioClassification)
  - [Верификация говорящего](#SpeakerVerification)
  - [Диаризация говорящих](#SpeakerDiarization)
  - [Восстановление знаков препинания](#PunctuationRestoration)

- [Общество](#Community)- [Приглашение к вкладу](#contribution)
 - [Лицензия](#License)Модуль "Текст в речь" ранее назывался [Parakeet](https://github.com/PaddlePaddle/Parakeet), но теперь он объединён с этим репозиторием. Если вас интересует академическая работа над этой задачей, пожалуйста, обратитесь к [общему обзору исследований TTS](https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/docs/source/tts#overview). Также [этот документ](https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/source/tts/models_introduction.md) является хорошим руководством для компонентов конвейера.

## ⭐ Примеры
- **[PaddleBoBo](https://github.com/JiehangXie/PaddleBoBo): Используйте PaddleSpeech TTS для генерации голоса виртуального человека.**

<div align="center"><a href="https://www.bilibili.com/video/BV1cL411V71o?share_source=copy_web"><img src="https://ai-studio-static-online.cdn.bcebos.com/06fd746ab32042f398fb6f33f873e6869e846fe63c214596ae37860fe8103720" /></a></div>
- [Демонстрационное видео PaddleSpeech](https://paddlespeech.readthedocs.io/en/latest/demo_video.html)

- **[VTuberTalk](https://github.com/jerryuhoo/VTuberTalk): Используйте PaddleSpeech TTS и ASR для клонирования голоса с видео.**

<div align="center">
<img src="https://raw.githubusercontent.com/jerryuhoo/VTuberTalk/main/gui/gui.png"  width = "500px"  />
</div>

## Цитирование

Чтобы цитировать PaddleSpeech в исследовании, пожалуйста, используйте следующий формат.
```text
@InProceedings{pmlr-v162-bai22d,
  title = {{A}$^3${T}: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing},
  author = {Бай, Хэ и Чжэн, Реньцзи и Чен, Жункун и Ма, Минбо и Ли, Синьтонг и Хуанг, Лян},
  booktitle = {Proceedings of the 39th International Conference on Machine Learning},
  pages = {1399--1411},
  year = {2022},
  volume = {162},
  series = {Proceedings of Machine Learning Research},
  month = {17--23 Jul},
  publisher = {PMLR},
  pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
  url = {https://proceedings.mlr.press/v162/bai22d.html},
}
``````latex
@inproceedings{zhang2022paddlespeech,
    title = {PaddleSpeech: Инструментарий для работы со звуками},
    author = {Чжан Хуи, Юань Тянь, Чен Жункун, Ли Синьтонг, Чжэн Реньцзи, Гоу Янчжу, Чен Сяочжэнь, Гонг Энлай, Чен Цзею, Гу Сяогуань, Ю Дианхай, Ма Янджун, Хуанг Лян},
    booktitle = {Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Demonstrations},
    year = {2022},
    publisher = {Association for Computational Linguistics},
}

@inproceedings{zheng2021fused,
  title={Fused acoustic and text encoding for multimodal bilingual pretraining and speech translation},
  author={Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Huang, Liang},
  booktitle={International Conference on Machine Learning},
  pages={12736--12746},
  year={2021},
  organization={PMLR}
}

Внесите свой вклад в проект PaddleSpeech

Установка

Для установки PaddleSpeech выполните следующую команду:

pip install paddlespeech

Вы всегда можете задавать вопросы в разделе discussions и отправлять отчеты о багах в разделе issues! Также мы очень благодарны за ваше желание внести свой вклад в этот проект!

Участники

``````markdown

Благодарность

Огромное спасибо HighCWu за добавление примеров VITS-aishell3 и VITS-VC.
Огромное спасибо david-95.com/david-95) за исправление ошибки с многоточием, внесение множества улучшений в программы и данные, а также добавление SSML для передней части текста TTS на китайском языке.
- Огромное спасибо BarryKCL за улучшение передней части текста TTS на китайском языке на основе G2PW.
- Огромное спасибо yeyupiaoling/PPASR/PaddlePaddle-DeepSpeech/VoiceprintRecognition-PaddlePaddle/AudioClassification-PaddlePaddle за годы внимательной работы, конструктивных советов и большого вклада.
- Огромное спасибо mymagicpower за реализацию ASR на Java для коротких (short) и длинных (long) аудиофайлов.
- Огромное спасибо JiehangXie/PaddleBoBo за создание Виртуального Загрузчика (VUP)/Виртуального Ютубера (VTuber) с использованием функции TTS PaddleSpeech.
- Огромное спасибо 745165806/PaddleSpeechTask за внесение модели восстановления пунктуации.
- Огромное спасибо kslz за дополнительные китайские документы.
- Огромное спасибо awmmmm за внесение модели предобученной на данных fastspeech2 aishell3 conformer.
- Огромное спасибо phecda-xucom/phecda-xu)/PaddleDubbing за создание инструмента для дублирования с графическим интерфейсом на основе модели TTS PaddleSpeech.
- Огромное спасибо jerryuhoo/VTuberTalk за создание графического инструмента на основе TTS PaddleSpeech и кода для создания наборов данных из видео на основе ASR PaddleSpeech.
- Огромное спасибо vpegasus/xuesebot. (Ссылка на проект: vpegasus/xuesebot) за развитие чат-бота на основе Rasa, который может говорить и слушать благодаря PaddleSpeech.- Благодарю chenkui164/FastASR за реализацию вывода на C++ для распознавания речи в PaddleSpeech.
Благодарю heyudage/VoiceTyping за реализацию инструмента для реального времени голосового набора текста для потоковых услуг распознавания речи в PaddleSpeech.
Благодарю EscaticZheng/ps3.9wheel-install за готовый Python 3.9 wheel для установки PaddleSpeech на Windows без использования Visual Studio.

Кроме того, PaddleSpeech зависит от многих открытых репозиториев. Для получения более подробной информации см. раздел ссылки.

Благодарю chinobing/FastAPI-PaddleSpeech-Audio-To-Text за конвертацию аудио в текст с использованием FastAPI и PaddleSpeech.
Благодарю MistEO/Pallas-Bot за бота для QQ на основе PaddleSpeech TTS.

Лицензия

PaddleSpeech предоставляется под лицензией Apache-2.0.