(русский|English)

Установка | Быстрый старт | Обучающие материалы | Список моделей | Курс AIStudio | Доклад NAACL2022 | Проект на Gitee

------------------------------------------------------------------------------------PaddleSpeech — это открытая библиотека моделей для голосовых технологий, основанная на платформе PaddlePaddle. Она предназначена для разработки различных ключевых задач в области аудио и звука с использованием передовых и влиятельных моделей глубинного обучения. Некоторые типичные примеры применения представлены ниже:

PaddleSpeech получила NAACL2022 Best Demo Award, пожалуйста, посетите Arxiv статью.

Демонстрация результатов

Распознавание речи

Входной аудио	Результат распознавания
	I knocked at the door on the ancient side of the building.
	Я считаю, что самое важное в бегах — это то, что они приносят мне здоровье.

Перевод речи (англо-китайский)

Входной аудио	Результат перевода
	Я вошел в дверь со старой стороны этого здания.

##### Голосовое синтезирование

Входной текст Синтезированное аудио

Жизнь — это как коробка шоколадов, ты никогда не знаешь, что получишь.

Доброе утро, сегодня 2020/10/29, минимальная температура -3°C.

Жижи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. ЖиЖи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи. Жи жи жи, жи жи жи.```markdown


У каждой страны есть свой гимн

``` ```Дополнительные синтезированные аудио можно найти в разделе [Примеры синтезированного голоса PaddleSpeech](https://paddlespeech.readthedocs.io/en/latest/tts/demo.html).

Восстановление знаков препинания

Исходный текст	Выходной текст
Сегодня погода отличная! У тебя есть время послеобеденное? Я хотел бы пригласить тебя на обед.	Сегодня погода отличная! У тебя есть время послеобеденное? Я хотел бы пригласить тебя на обед.

Основные характеристики

Проект был реализован с учётом удобства использования, эффективности, гибкости и возможности расширения, чтобы лучше поддерживать промышленные применения и академическое исследование. Реализованные функции включают модули обучения, вывода и тестирования, а также процесс развертывания, который включает:- 📦 Удобство использования: низкие требования к установке, возможность быстрого старта с помощью CLI.

🏆 Конкурентоспособность с лучшими решениями: предоставляет высокоскоростные, легковесные модели, использующие передовые технологии.
🏆 Потоковая система ASR и TTS: промышленные системы потокового анализа речи и потокового синтеза речи.
💯 Регламентированный китайский фронтенд: наш фронтенд включает текстовое регулярное выражение и преобразование звуковых символов (G2P). Кроме того, мы используем специальные правила языка для адаптации к китайской среде.
Поддержка множества основных функций промышленных и академических задач:
- 🛎️ Типичные аудио задачи: этот набор инструментов предлагает выполнение типичных аудио задач, таких как аудио классификация, машинный перевод речи, автоматический анализ речи, текстовый анализ речи, синтез речи, биометрический анализ голоса, KWS и т. д.
- 🔬 Основные модели и наборы данных: этот набор инструментов реализует все модули участия в цепочке аудио задач, используя популярные наборы данных, такие как LibriSpeech, LJSpeech, AIShell, CSMSC. Подробнее см. Список моделей.
- 🧩 Интеграция моделей: как расширение традиционных аудио задач, мы объединяем естественный язык, компьютерное зрение и другие задачи, чтобы создать более реалистичные промышленные приложения.### Недавние обновления
👑 2023. 03. 09: Добавлено Wav2vec2ASR-zh.
🎉 2023. 03. 07: Добавлено Пример развертывания TTS ARM Linux C++.
🔥 2023. 03. 03: Добавлено звуковое преобразование модели StarGANv2-VC процесс синтеза.
🎉 2023. 02. 16: Добавлено Гонконгское произношение TTS.
🔥 2023. 01. 10: Добавлено Смешанное китайско-английское ASR CLI и Demos.
👑 2023. 01. 06: Добавлено Процесс обучения и вывода ASR смешанного китайско-английского tal_cs.
🎉 2022. 12. 02: Добавлено Полный цикл прогнозирования мелодики (включает использование меток мелодики в акустической модели).
🎉 2022. 11. 30: Добавлено Пример развертывания TTS Android.
🤗 2022. 11. 28: Примеры PP-TTS и PP-ASR доступны для просмотра на AIStudio и официальном сайте PaddlePaddle!
👑 2022. 11. 18: Добавлено Whisper CLI и Demos, поддерживающее распознавание и перевод на нескольких языках.
🔥 2022. 11. 18: Добавлено Wav2vec2 CLI и Demos, поддерживающее ASR и извлечение признаков.
🎉 2022. 11. 17: В TTS добавлено качественное мужское голосовое оформление.
🔥 2022. 11. 07: Добавлено высокопроизводительное поточное ASR U2/U2++ C++ развертывание.
👑 2022. 11. 01: В смешанном китайско-английском TTS добавлен модуль потерь противника (https://arxiv.org/pdf/1907.04448.pdf).
🔥 2022. 10. 26: В TTS добавлена возможность прогнозирования мелодики (./develop/examples/other/rhy).
🎉 2022. 10. 21: В TTS китайской текстовой передней части добавлена функция SSML (https://github.com/PaddlePaddle/PaddleSpeech/discussions/2538).
👑 2022. 10. 11: Добавлен Wav2vec2ASR-en (./examples/librispeech/asr3), fine-tuning wav2vec2. 0 для задач ASR на наборе данных LibriSpeech.
🔥 2022. 09. 26: Добавлено клонирование голоса, fine-tuning TTS и ERNIE-SAT (https://arxiv.org/abs/2211.03545) до web-приложения PaddleSpeech (./demos/speech_web).
⚡ 2022. 09. 09: Добавлен пример клонирования голоса AISHELL-3 на основе модели ECAPA-TDNN (./examples/aishell3/vc2).
⚡ 2022. 08. 25: Опубликован пример fine-tuning TTS (./examples/other/tts_finetune/tts3).
🔥 2022. 08. 22: Добавлены модели ERNIE-SAT (https://arxiv.org/abs/2211.03545): ERNIE-SAT-vctk (./examples/vctk/ernie_sat), ERNIE-SAT-aishell3 (./examples/aishell3/ernie_sat), ERNIE-SAT-zh_en (./examples/aishell3_vctk/ernie_sat).
🔥 2022. 08. 15: Внедрен g2pW (https://github.com/GitYCC/g2pW) в текстовый фронтенд TTS для китайского языка.
🔥 2022. 08. 09: Выпущен TTS с поддержкой смешанной лингвистики китайско-английской (mixed TTS).
⚡ 2022. 08. 03: В TTS CLI добавлена возможность использования ONNXRuntime для вывода.
🎉 2022. 07. 18: Выпущены модели VITS: VITS-csmsc (./examples/csmsc/vits), VITS-aishell3 (./examples/aishell3/vits), VITS-VC (./examples/aishell3/vits-vc).
🎉 2022. 06. 22: Все модели TTS поддерживают формат ONNX.
🍀 2022. 06. 17: Добавлен web-интерфейс PaddleSpeech (./demos/speech_web).
👑 2022. 05.13: PaddleSpeech выпустил системы PP-ASR (поточное распознавание речи), PP-TTS (поточное синтезирование речи), PP-VPR (полносвязная система идентификации голоса).
👏🏻 2022. 05. 06: Запущен сервер PaddleSpeech Streaming! Поддерживает распознавание речи (восстановление пунктуации, временные метки) и синтез речи.
👏🏻 2022. 05. 06: Запущен сервер PaddleSpeech! Поддерживает классификацию звука, распознавание речи, синтез речи, идентификацию голоса, восстановление пунктуации.
👏🏻 2022. 03. 28: PaddleSpeech CLI поддерживает классификацию звука, распознавание речи, машинный перевод (англо-китайский), синтез речи и проверку голоса.
👏🏻 2021. 12. 10: PaddleSpeech CLI поддерживает классификацию звука, распознавание речи, машинный перевод (англо-китайский) и синтез речи. ### 🔥 Присоединяйтесь к сообществу для получения специальных бонусов - 3-дневный онлайн-курс: подробное объяснение технологий голосового взаимодействия — «Одна и та же фраза голосового синтеза», «Малый набор данных голосового синтеза» и «Пользовательская настройка распознавания речи».
Учебный пакет объемом 20 ГБ: видеоуроки, научные статьи и учебные материалы.

Сканируйте QR-код через WeChat, чтобы подписаться на официальный аккаунт, заполните анкету и присоединитесь к официальному общению, где вы сможете получить более эффективную помощь в решении вопросов и активно общаться со всеми участниками сообщества. Ждём вас!

Установка

Мы настоятельно рекомендуем пользователям установить PaddleSpeech в среде Linux с версией Python 3.7 и выше.

Важные зависимости

gcc >= 4.8.5
paddlepaddle >= 2.4.1
python >= 3.7
linux (рекомендовано), mac, windows

PaddleSpeech зависит от paddlepaddle, установка может быть выполнена с помощью официального сайта paddlepaddle. Вы можете выбрать подходящую версию в соответствии с вашими требованиями. Ниже представлен пример установки для CPU:

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

Вы также можете установить конкретную версию paddlepaddle или версию develop.```bash

Установка версии 2.4.1. Обратите внимание: 2.4.1 является примером, выберите минимально необходимую версию.

pip install paddlepaddle==2.4.1 -i https://mirror.baidu.com/pypi/simple

Установка версии develop

pip install paddlepaddle==0.0.0 -f https://www.paddlepaddle.org.cn/whl/linux/cpu-mkl/develop.html


### Установка через pip
```shell
pip install pytest-runner
pip install paddlespeech

Установка через компиляцию из исходников

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

Дополнительная информация по установке, такие как использование Conda, зависимость librosa от системных библиотек, проблемы с GCC и установка Kaldi, доступна в этой документации по установке. Если возникли трудности при установке, вы можете обратиться за помощью на #2150.

Быстрый старт

После завершения установки, разработчики могут начать работу через командную строку или Python. В режиме командной строки можно менять параметр --input, чтобы использовать свои аудиофайлы или текст для тестирования. Поддерживается аудиофайл формата 16k WAV. Вы также можете быстро протестировать в aistudio 👉🏻одним щелчком мыши запустить предсказание, легко начать работу с задачами распознавания речи.

Примеры тестовых аудиофайлов для скачивания

wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

Распознавание речи

(Нажмите, чтобы развернуть) Открытый китайский язык распознавания речи

Один клик для быстрого опыта через командную строку

paddlespeech asr --lang zh --input zh.wav

Один клик для предсказания через Python API

>>> from paddlespeech.cli.asr.infer import ASRExecutor
>>> asr = ASRExecutor()
>>> result = asr(audio_file="zh.wav")
>>> print(result)
Я считаю, что самое важное в беге — это то, что он приносит мне здоровье

Голосовое синтезирование

Открытый китайский голосовой синтезатор

Выходной аудиофайл wav формата со скоростью дискретизации Yöntem 24kHz

Один клик для быстрого опыта через командную строку

paddlespeech tts --input "Здравствуйте, добро пожаловать использовать Baidu PaddlePaddle глубокую нейронную сеть!" --output output.wav

Один клик для предсказания через Python API

>>> from paddlespeech.cli.tts.infer import TTSExecutor
>>> tts = TTSExecutor()
>>> tts(text="Сегодня погода очень хорошая.", output="output.wav")

Веб-демонстрация голосового синтеза уже интегрирована в Huggingface Spaces. Смотрите: Демо TTS

Классификация звука

Адаптированный для различных сцен открытый классификатор звуков

Модель классификации звука на основе данных AudioSet с 527 категориями

Один клик для быстрого опыта через командную строку

paddlespeech cls --input zh.wav

Один клик для предсказания через Python API

>>> from paddlespeech.cli.cls.infer import CLSExecutor
>>> cls = CLSExecutor()
>>> result = cls(audio_file="zh.wav")
>>> print(result)
Speech 0.9027186632156372

Экстракция голосового отпечатка

Профессиональный инструмент экстракции голосового отпечатка

Один клик для быстрого опыта через командную строку

paddlespeech vector --task spk --input zh.wav

Один клик для предсказания через Python API

>>> from paddlespeech.cli.vector import VectorExecutor
>>> vec = VectorExecutor()
>>> result = vec(audio_file="zh.wav")
>>> print(result) # 187-мерный вектор
[ -0.19083306   9.474295   -14.122263    -2.0916545    0.04848729
   4.9295826    1.4780062    0.3733844   10.695862     3.2697146
  -4.48199     -0.6617882   -9.170393   -11.1568775   -1.2358263 ...]

Восстановление пунктуации

Один клик для восстановления пунктуации в тексте, можно использовать вместе с моделью распознавания речи (ASR)

Однострочное выполнение через командную строку

paddlespeech text --task punc --input Сегодняшний день отличается прекрасной погодой ты свободен послеобеденно можешь ли ты встретиться со мной чтобы поужинать вместе

Однострочное прогнозирование через Python API

>>> from paddlespeech.cli.text.infer import TextExecutor
>>> text_punc = TextExecutor()
>>> result = text_punc(text="сегодняшний день отличается прекрасной погодой ты свободен послеобеденно можешь ли ты встретиться со мной чтобы поужинать вместе")
Сегодняшний день отличается прекрасной погодой! Ты свободен послеобеденно? Можешь ли ты встретиться со мной, чтобы поужинать вместе?

Голосовой перевод

Инструмент для конвейерного перевода английского голоса на китайский язык

Использует предварительно скомпилированные инструменты Kaldi, работает только на системах UbuntuОднострочное выполнение через командную строку

paddlespeech st --input en.wav

Однострочное прогнозирование через Python API

>>> from paddlespeech.cli.st.infer import STExecutor
>>> st = STExecutor()
>>> result = st(audio_file="en.wav")
['Я стучусь в старую дверь этого здания.']

Быстрая работа сервисов

После установки, разработчики могут запустить различные службы, такие как распознавание речи, синтез речи, классификация аудио и так далее одним кликом.

Вы можете быстро протестировать это в AI Studio: Запуск SpeechServer

Запуск службы

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

Доступ к службе распознавания речи

paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

Доступ к службе синтеза речи

paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "Здравствуйте, добро пожаловать в сервис синтеза речи от Baidu PaddlePaddle." --output output.wav

Доступ к службе классификации аудио

paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wav

Дополнительная информация по использованию командной строки для работы с услугами доступна в разделе demos

Быстрая работа поточной службы

Разработчики могут попробовать службу поточного распознавания речи (ASR) и службу поточного синтеза речи (TTS).

Запуск поточной службы распознавания речи (ASR)

paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml

Доступ к поточной службе распознавания речи (ASR)

paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

Запуск поточной службы синтеза речи (TTS)

paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml

Доступ к поточной службе синтеза речи (TTS)

paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "Привет, добро пожаловать в сервис синтеза речи Baidu PaddleSpeech." --output output.wav

Дополнительная информация доступна здесь: поточное распознавание речи (ASR) и поточный синтез речи (TTS)

Список моделей

PaddleSpeech поддерживает множество популярных моделей и предоставляет предварительно обученные модели. Подробнее см. список моделей.

Функционал распознавания речи PaddleSpeech включает акустическую модель распознавания речи, лингвистическую модель распознавания речи и перевод речи. Подробнее следуйте за ссылками ниже:

Тип модуля распознавания речи	Датасет	Тип модели	Скрипт
Распознавание речи	Aishell	DeepSpeech2 RNN + конволюционные модели	deepspeech2-aishell
	Aishell	Модели на основе внимания с использованием Transformer	u2.transformer.conformer-aishell
	LibriSpeech	Модели на основе внимания с использованием Transformer	deepspeech2-librispeech / transformer.conformer.u2-librispeech / transformer.conformer.u2-kaldi-librispeech
	TIMIT	Объединённое потоковое и непотоковое двухпроходное моделирование	u2-timit
Выравнивание	THCHS30	MFA	mfa-thchs30
Лингвистическая модель	Ngram лингвистическая модель		kenlm
Перевод речи (англ. - китай.)	TED En-Zh	Transformer + ASR MTL	asr_translation

FAT + Transformer + ASR MTL	fat-st-ted
Transformer-TED	transformer-ted

Основной функционал **голосового синтеза** в PaddleSpeech состоит из трех модулей: текстового фронта, акустической модели и голосового кодировщика. Акустическая модель и модель голосового кодировщика представлены ниже:

Тип модуля синтеза речи	Тип модели	Датасет	Скрипт
Текстовый фронтенд			tn / g2p
Акустическая модель	Tacotron2	LJSpeech / CSMSC	tacotron2-ljspeech / tacotron2-csmsc
	Transformer TTS	LJSpeech	transformer-ljspeech
	SpeedySpeech	CSMSC	speedyspeech-csmsc
	FastSpeech2	LJSpeech / VCTK / CSMSC / AISHELL-3 / ZH_EN / fine-tuning	fastspeech2-ljspeech / fastspeech2-vctk / fastspeech2-csmsc / fastspeech2-aishell3 / fastspeech2-zh_en / fastspeech2-fine-tuning
	ERNIE-SAT	VCTK / AISHELL-3 / ZH_EN	ERNIE-SAT-vctk / ERNIE-SAT-aishell3 / ERNIE-SAT-zh_en
Голосовой кодировщик	WaveFlow	LJSpeech	waveflow-ljspeech

```markdown

Multi-band MelGAN	CSMSC	Multi-band MelGAN-csmsc
Style MelGAN	CSMSC	Style MelGAN-csmsc
HiFiGAN	LJSpeech / VCTK / CSMSC / AISHELL-3	HiFiGAN-ljspeech / HiFiGAN-vctk / HiFiGAN-csmsc / HiFiGAN-aishell3
WaveRNN	CSMSC	WaveRNN-csmsc
Audio Cloning	GE2E	LibriSpeech and others	GE2E
	SV2TTS (GE2E + Tacotron2)	AISHELL-3	VC0
	SV2TTS (GE2E + FastSpeech2)	AISHELL-3	VC1
	SV2TTS (ECAPA-TDNN + FastSpeech2)	AISHELL-3	VC2
	GE2E + VITS	AISHELL-3	VITS-VC
End-to-end	VITS	CSMSC / AISHELL-3	VITS-csmsc / VITS-aishell3

``````markdown /examples/csmsc/vits">VITS-csmsc / VITS-aishell3 ```

**Звуко-Classification**

Задача	Датасет	Тип модели	Скрипт
Классификация звука	ESC-50	PANN	pann-esc50

Разбудка голоса

Задача	Датасет	Тип модели	Скрипт
Разбудка голоса	hey-snips	MDTC	mdtc-hey-snips

Идентификация голосового отпечатка

Задача	Датасет	Тип модели	Скрипт
Идентификация голосового отпечатка	VoxCeleb1/2	ECAPA-TDNN	ecapa-tdnn-voxceleb12

Журнал говорящих лиц

Задача	Датасет	Тип модели	Скрипт
Журнал говорящих лиц	AMI	ECAPA-TDNN + AHC / SC	ecapa-tdnn-ami

Восстановление пунктуации

Задача	Датасет	Тип модели	Скрипт
Восстановление пунктуации	IWLST2012_zh	Линейная модель Ernie	iwslt2012-punc0

## Обучающие материалыДля задач, рассматриваемых в PaddleSpeech, следующие руководства помогут разработчикам быстро освоиться и понять основные идеи работы с аудио:

[Установка и конфигурация](. /docs/source/install_ru.md)
Быстрый старт
Основной учебный курс Notebook
- [Классификация звуков](. /docs/tutorial/cls/cls_tutorial.ipynb)
- [Распознавание речи](. /docs/tutorial/asr/tutorial_transformer.ipynb)
- [Перевод речи](. /docs/tutorial/st/st_tutorial.ipynb)
- [Синтез речи](. /docs/tutorial/tts/tts_tutorial.ipynb)
- [Пример Demo](. /demos/README.md)
Продвинутые документы
- [Пользовательское обучение распознаванию речи](. /docs/source/asr/quick_start.md)
  - [Обзор моделей](. /docs/source/asr/models_introduction.md)
  - [Подготовка данных](. /docs/source/asr/data_preparation.md)
  - [Модели Ngram языка](. /docs/source/asr/ngram_lm.md)
- [Пользовательское обучение синтезу речи](. /docs/source/tts/quick_start.md)
  - [Обзор моделей](. /docs/source/tts/models_introduction.md)
  - [Продвинутые методы использования](. /docs/source/tts/advanced_usage.md)
  - [Фронтенд для китайского текста](. /docs/source/tts/zh_text_frontend.md)
  - Тестовые аудиофайлы
- [Идентификация голосового отпечатка](. /demos/speaker_verification/README_ru.md)
- [Поиск аудио](. /demos/audio_searching/README_ru.md)
- [Классификация звука](. /demos/audio_tagging/README_ru.md)
- [Перевод речи](. /demos/speech_translation/README_ru.md)
- [Развертывание сервиса](. /demos/speech_server/README_ru.md)
Список моделей
Группы для технического общения
Добро пожаловать к вкладам
ЛицензияМодуль синтеза речи первоначально назывался Parakeet, но теперь объединён с этим репозиторием. Если вас интересует академическое исследование этой задачи, обратитесь к обзору исследований TTS. Кроме того, обзор моделей является отличным руководством для понимания процесса синтеза речи.

⭐ Пример использования

PaddleBoBo: Использует модуль синтеза речи PaddleSpeech для генерации звука виртуального человека.

- [Пример видео PaddleSpeech](https://paddlespeech.readthedocs.io/en/latest/demo_video.html)

VTuberTalk: Использует PaddleSpeech для синтеза речи и распознавания речи для клонирования голоса из видео.

ЦитированиеДля цитирования PaddleSpeech в исследовании используйте следующий формат цитирования.

@InProceedings{pmlr-v162-bai22d,
  title = {{A}$^3${T}: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing}},
  author = {Bai, He and Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Li, Xintong and Huang, Liang},
  booktitle = {Proceedings of the 39th International Conference on Machine Learning},
  pages = {1399--1411},
  year = {2022},
  volume = {162},
  series = {Proceedings of Machine Learning Research},
  month = {17--23 Jul},
  publisher = {PMLR},
  pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
  url = {https://proceedings.mlr.press/v162/bai22d.html},
}
``````markdown
<a name="вклад"></a>
## Внесение вклада в PaddleSpeech

@inproceedings{zhang2022paddlespeech,
    title = {PaddleSpeech: Инструментарий для работы со звуком},
    author = {Hui Zhang, Tian Yuan, Junkun Chen, Xintong Li, Renjie Zheng, Yuxin Huang, Xiaojie Chen, Enlei Gong, Zeyu Chen, Xiaoguang Hu, Dianhai Yu, Yanjun Ma, Liang Huang},
    booktitle = {Демонстрационные материалы конференции Ассоциации за вычислительную лингвистику Северной Америки: технологии естественного языка 2022 года},
    year = {2022},
    publisher = {Ассоциация за вычислительную лингвистику},
}

@inproceedings{zheng2021fused,
  title={Объединённое акустическое и текстовое кодирование для многомодальной билингвой подготовки и перевода речи},
  author={Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Huang, Liang},
  booktitle={Международная конференция по машинному обучению},
  pages={12736--12746},
  year={2021},
  organization={PMLR}
}
```Мы рады приветствовать вас в [Обсуждениях](https://github.com/PaddlePaddle/PaddleSpeech/discussions) для представления проблем и в [Issues](https://github.com/PaddlePaddle/PaddleSpeech/issues) для указания найденных ошибок. Кроме того, мы очень надеемся на ваш вклад в развитие PaddleSpeech!

### Вкладчики
<p align="center">
<a href="https://github.com/zh794390558"><img src="https://avatars.githubusercontent.com/u/3038472?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/Jackwaterveg"><img src="https://avatars.githubusercontent.com/u/87408988?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/yt605155624"><img src="https://avatars.githubusercontent.com/u/24568452?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/Honei"><img src="https://avatars.githubusercontent.com/u/11361692?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/KPatr1ck"><img src="https://avatars.githubusercontent.com/u/22954146?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/kuke"><img src="https://avatars.githubusercontent.com/u/3064195?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/lym0302"><img src="https://avatars.githubusercontent.com/u/34430015?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/SmileGoat"><img src="https://avatars.githubusercontent.com/u/56786796?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/xinghai-sun"><img src="https://avatars.githubusercontent.com/u/7038341?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/pkuyym"><img src="https://avatars.githubusercontent.com/u/5782283?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/LittleChenCc"><img src="https://avatars.githubusercontent.com/u/10339970?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/qingen"><img src="https://avatars.githubusercontent.com/u/3139179?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/D-DanielYang"><img src="https://avatars.githubusercontent.com/u/23690325?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/Mingxue-Xu"><img src="https://avatars.githubusercontent.com/u/92848346?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/745165806"><img src="https://avatars.githubusercontent.com/u/20623194?<a href="https://github.com/jerryuhoo"><img src="https://avatars.githubusercontent.com/u/24245709?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/WilliamZhang06"><img src="https://avatars.githubusercontent.com/u/97937340?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/chrisxu2016"><img src="https://avatars.githubusercontent.com/u/18379485?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/iftaken"><img src="https://avatars.githubusercontent.com/u/30135920?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/lfchener"><img src="https://avatars.githubusercontent.com/u/6771821?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/BarryKCL"><img src="https://avatars.githubusercontent.com/u/48039828?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/mmglove"><img src="https://avatars.githubusercontent.com/u/38800877?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/gongel"><img src="https://avatars.githubusercontent.com/u/24390500?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/luotao1"><img src="https://avatars.githubusercontent.com/u/6836917?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/wanghaoshuang"><img src="https://avatars.githubusercontent.com/u/7534971?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/kslz"><img src="https://avatars.githubusercontent.com/u/54951765?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/JiehangXie"><img src="https://avatars.githubusercontent.com/u/51190264?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/david-95"><img src="https://avatars.githubusercontent.com/u/15189190?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/THUzyt21"><img src="https://avatars.githubusercontent.com/u/91456992?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/buchongyu2"><img src="https://avatars.githubusercontent.com/u/29157444?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/iclementine"><img src="https://avatars.githubusercontent.com/u/16222986?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/phecda-xu"><img src="https://avatars.githubusercontent.com/u/46859427?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/freeliuzc"><img src="https://avatars.githubusercontent.com/u/23568094?s=60&v=4" width=75 height=75></a><a href="https://github.com/ZeyuChen"><img src="https://avatars.githubusercontent.com/u/1371212?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/ccrrong"><img src="https://avatars.githubusercontent.com/u/101700995?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/AK391"><img src="https://avatars.githubusercontent.com/u/81195143?s=60&v=4" width=75 height=75></a>

```markdown
<a href="https://github.com/qingqing01"><img src="https://avatars.githubusercontent.com/u/7845005?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/0x45f"><img src="https://avatars.githubusercontent.com/u/23097963?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/vpegasus"><img src="https://avatars.githubusercontent.com/u/22723154?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/ericxk"><img src="https://avatars.githubusercontent.com/u/4719594?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/Betterman-qs"><img src="https://avatars.githubusercontent.com/u/61459181?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/sneaxiy"><img src="https://avatars.githubusercontent.com/u/32832641?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/Doubledongli"><img src="https://avatars.githubusercontent.com/u/20540661?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/apps/dependabot"><img src="https://avatars.githubusercontent.com/in/29110?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/kvinwang"><img src="https://avatars.githubusercontent.com/u/6442159?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/chenkui164"><img src="https://avatars.githubusercontent.com/u/34813030?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/PaddleZhang"><img src="https://avatars.githubusercontent.com/u/97284124?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/billishyahao"><img src="https://avatars.githubusercontent.com/u/96406262?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/BrightXiaoHan"><img src="https://avatars.githubusercontent.com/u/25839309?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/jiqiren11"><img src="https://avatars.githubusercontent.com/u/82639260?s=60&v=4" width=75 height=75></a>
<a href="https://github.com/ryanrussell"><img src="https://avatars.githubusercontent.com/u/523300? s=60&v=4" width=75 height=75></a>
```s=60&amp;v=4" width=75 height=75></a>
 <a href="https://github.com/GT-ZhangAcer"><img src="https://avatars.githubusercontent.com/u/46156734?s=60&amp;v=4" width=75 height=75></a>
 <a href="https://github.com/tensor-tang"><img src="https://avatars.githubusercontent.com/u/21351065?s=60&amp;v=4" width=75 height=75></a>
 <a href="https://github.com/hysunflower"><img src="https://avatars.githubusercontent.com/u/52739577?s=60&amp;v=4" width=75 height=75></a>
 <a href="https://github.com/"
```<a href="https://github.com/oyjxer"><img src="https://avatars.githubusercontent.com/u/16233945?s=60&v=4" width=75 height=75></a>
 <a href="https://github.com/JamesLim-sy"><img src="https://avatars.githubusercontent.com/u/61349199?s=60&v=4" width=75 height=75></a>
 <a href="https://github.com/limpidezza"><img src="https://avatars.githubusercontent.com/u/71760778?s=60&v=4" width=75 height=75></a>
 <a href="https://github.com/windstamp"><img src="https://avatars.githubusercontent.com/u/34057289?s=60&v=4" width=75 height=75></a>
 <a href="https://github.com/AshishKarel"><img src="https://avatars.githubusercontent.com/u/58069375?s=60&v=4" width=75 height=75></a>
 <a href="https://github.com/chesterkuo"><img src="https://avatars.githubusercontent.com/u/6285069?s=60&v=4" width=75 height=75></a>
 <a href="https://github.com/YDX-2147483647"><img src="https://avatars.githubusercontent.com/u/73375426?s=60&v=4" width=75 height=75></a>
 <a href="https://github.com/AdamBear"><img src="https://avatars.githubusercontent.com/u/2288870?s=60&v=4" width=75 height=75></a>
 <a href="https://github.com/wwhu"><img src="https://avatars.githubusercontent.com/u/6081200?s=60&v=4" width=75 height=75></a>
 <a href="https://github.com/lispc"><img src="https://avatars.githubusercontent.com/u/2833376?s=60&v=4" width=75 height=75></a>
 <a href="https://github.com/harisankarh"><img src="https://avatars.githubusercontent.com/u/1307053?s=60&v=4" width=75 height=75></a>
 <a href="https://github.com/pengzhendong"><img src="https://avatars.githubusercontent.com/u/10704539?s=60&v=4" width=75 height=75></a>
 <a href="https://github.com/Jackiexiao"><img src="https://avatars.githubusercontent.com/u/18050469?s=60&v=4" width=75 height=75></a>

## Благодарности
- Огромное спасибо [HighCWu](https://github.com/HighCWu) за добавление примеров кода [VITS-aishell3](./examples/aishell3/vits) и [VITS-VC](.)/examples/aishell3/vits-vc).
 - Огромное спасибо [david-95](https://github.com/david-95) за исправление ошибок в конце предложения TTS при использовании нескольких знаков препинания, а также за внедрение новых программ и данных. Внедренная функция [SSML](https://github.com/PaddlePaddle/PaddleSpeech/discussions/2538) для передней части TTS с китайским текстом.
 - Огромное спасибо [BarryKCL](https://github.com/BarryKCL) за оптимизацию передней части TTS с китайским текстом на основе [G2PW](https://github.com/GitYCC/g2pW).
 - Огромное спасибо [yeyupiaoling](https://github.com/yeyupiaoling)/[PPASR](https://github.com/yeyupiaoling/PPASR)/[PaddlePaddle-DeepSpeech](https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech)/[VoiceprintRecognition-PaddlePaddle](https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle)/[AudioClassification-PaddlePaddle](https://github.com/yeyupiaoling/AudioClassification-PaddlePaddle) за многолетнюю поддержку и советы, а также помощь в решении многих проблем.
 - Огромное спасибо [mymagicpower](https://github.com/mymagicpower) за реализацию ASR для коротких аудиофрагментов [короткие аудиофрагменты](https://github.com/mymagicpower/AIAS/tree/main/3_audio_sdks/asr_sdk) и длинных аудиофрагментов [длинные аудиофрагменты](https://github.com/mymagicpower/AIAS/tree/main/3_audio_sdks/asr_long_audio_sdk) на Java с использованием PaddleSpeech.
 - Огромное спасибо [JiehangXie](https://github.com/JiehangXie)/[PaddleBoBo](https://github.com/JiehangXie/PaddleBoBo) за использование функции синтеза речи PaddleSpeech для создания виртуального стримера (VUP) и виртуального ютубера (VTuber).
 - Огромное спасибо [745165806](https://github.com/745165806)/[PaddleSpeechTask](https://github.com/745165806/PaddleSpeechTask) за внесение моделей восстановления пунктуации.
 - Огромное спасибо [kslz](https://github.com/kslz).Спасибо **kslz** за добавление китайской документации.
- Огромное спасибо **awmmmm** за предоставление предобученной модели fastspeech2 aishell3 conformer.
- Огромное спасибо **phecda-xu**/**PaddleDubbing** за создание инструмента для дублирования голоса с графическим интерфейсом пользователя на основе TTS модели PaddleSpeech.
- Огромное спасибо **jerryuhoo**/**VTuberTalk** за создание графического интерфейса пользователя для TTS и кода для создания набора данных на основе ASR.
- Огромное спасибо **vpegasus**/**xuesebot** за создание говорящего бота, способного слушать и отвечать на вопросы, используя ASR и TTS PaddleSpeech.
- Спасибо **chenkui164**/**FastASR** за реализацию C++-вывода ASR для PaddleSpeech.
- Спасибо **heyudage**/**VoiceTyping** за создание инструмента в реальном времени для ввода голосовых данных с использованием потокового вывода ASR PaddleSpeech.
- Спасибо **EscaticZheng**/**ps3.9wheel-install** за предоставление установочных пакетов с предварительно скомпилированными зависимостями для Windows без использования Visual Studio на основе Python 3.9.
- Спасибо **chinobing**/**FastAPI-PaddleSpeech-Audio-To-Text** за создание FastAPI приложения для преобразования аудио в текст с использованием PaddleSpeech.com/chinobing/FastAPI-PaddleSpeech-Audio-To-Text) за использование FastAPI для реализации функции преобразования аудио в текст с помощью PaddleSpeech, включая загрузку файлов, разделение, отображение прогресса конвертации, фоновые задачи обновления и вывод в формате CSV.
- Благодарю [MistEO](https://github.com/MistEO)/[Pallas-Bot](https://github.com/MistEO/Pallas-Bot) за проект бота для QQ, использующего TTS PaddleSpeech. Кроме того, PaddleSpeech зависит от многих открытых хранилищ. Для получения дополнительной информации обратитесь к [источникам](./docs/source/reference.md).## Лицензия

PaddleSpeech предоставляется под лицензией [Apache-2.0](./LICENSE).

## Подписчики со временем

[![Подписчики со временем](https://starchart.cc/PaddlePaddle/PaddleSpeech.svg)](https://starchart.cc/PaddlePaddle/PaddleSpeech)

OSCHINA-MIRROR/paddlepaddle-DeepSpeech

Установка | Быстрый старт | Обучающие материалы | Список моделей | Курс AIStudio | Доклад NAACL2022 | Проект на Gitee

Демонстрация результатов

Распознавание речи

Восстановление знаков препинания

Основные характеристики

Установка

Важные зависимости

Установка версии 2.4.1. Обратите внимание: 2.4.1 является примером, выберите минимально необходимую версию.

Установка версии develop

Установка через компиляцию из исходников

Быстрый старт

Распознавание речи

Голосовое синтезирование

Классификация звука

Экстракция голосового отпечатка

Восстановление пунктуации

Голосовой перевод

Быстрая работа сервисов

Быстрая работа поточной службы

Список моделей

⭐ Пример использования

ЦитированиеДля цитирования PaddleSpeech в исследовании используйте следующий формат цитирования.

Опубликовать ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/paddlepaddle-DeepSpeech .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Установка | Быстрый старт | Обучающие материалы | Список моделей | Курс AIStudio | Доклад NAACL2022 | Проект на Gitee

Демонстрация результатов

Распознавание речи

Восстановление знаков препинания

Основные характеристики

Установка

Важные зависимости

Установка версии 2.4.1. Обратите внимание: 2.4.1 является примером, выберите минимально необходимую версию.

Установка версии develop

Установка через компиляцию из исходников

Быстрый старт

Распознавание речи

Голосовое синтезирование

Классификация звука

Экстракция голосового отпечатка

Восстановление пунктуации

Голосовой перевод

Быстрая работа сервисов

Быстрая работа поточной службы

Список моделей

⭐ Пример использования

ЦитированиеДля цитирования PaddleSpeech в исследовании используйте следующий формат цитирования.

Опубликовать ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/paddlepaddle-DeepSpeech