1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/paddlepaddle-DeepSpeech

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

(упрощенный китайский | Русский)

------------------------------------------------------------------------------------PaddleSpeech — это открытый набор инструментов на платформе PaddlePaddle для выполнения различных задач в области речи и аудио с использованием передовых и влиятельных моделей. PaddleSpeech выиграл NAACL2022 Best Demo Award, пожалуйста, проверьте нашу статью на Arxiv.

Распознавание речи
Входной аудио Результат распознавания

I knocked at the door on the ancient side of the building.

Я считаю, что самое важное в бегах — это то, что они приносят мне здоровье.
Перевод речи (английский в китайский)
Входной аудио Результат перевода

我在这栋建筑的古老门上敲门。
##### Преобразование текста в речь
Вводный текст Синтетический аудио
Жизнь — это как коробка шоколадов, ты никогда не знаешь, что получишь.
Доброе утро, сегодня 2020/10/29, минимальная температура −3°C.
Жижи, Жи жи, Жи жи. Жи жи жаждет, Жи жи и Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, ЖиЖи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи.Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи.Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут```markdown
У каждой страны есть свой гимн
```Для получения более синтезированных аудио, обратитесь к [примерам PaddleSpeech Text-to-Speech](https://paddlespeech.readthedocs.io/en/latest/tts/demo.html).

Восстановление пунктуации

Исходный текст Выходной текст
今天的天气真不错啊你下午有空吗我想约你一起去吃饭 Сегодня погода просто замечательная! У тебя есть время после обеда? Я хотел бы пригласить тебя пообедать со мной.

Возможности

С помощью удобного в использовании, эффективного, гибкого и масштабируемого решения наша цель — обеспечить как промышленное применение, так и академическое исследование, включая модули обучения, вывода и тестирования, а также процесс развертывания. Более конкретно, этот набор инструментов имеет следующие особенности:- 📦 Удобство использования: низкие барьеры для установки, CLI, сервер и стриминговый сервер доступны для быстрого старта.

  • 🏆 Совместимость с передовыми технологиями: мы предоставляем модели высокой скорости и сверхлёгкие модели, а также передовые технологии.
  • 🏆 Потоковая система распознавания речи и синтеза речи: мы предлагаем готовые к использованию потоковые системы распознавания речи и синтеза речи.
  • 💯 Основанный на правилах китайский фронтенд: наш фронтенд включает нормализацию текста и преобразование графем в фонемы (G2P, включая полифонию и тональную санджу). Кроме того, мы используем самостоятельно определённые лингвистические правила для адаптации к контексту китайского языка.
  • 📦 Различные функции, активирующие как промышленность, так и академию:
    • 🛎️ Имплементация критических задач работы с аудио: этот набор инструментов содержит аудиофункции, такие как автоматическое распознавание речи, синтез речи, верификация говорящего, поиск ключевых слов, классификация аудио и перевод речи, и т. д.
    • 🔬 Интеграция основных моделей и наборов данных: набор инструментов реализует модули, участвующие во всём цикле выполнения задачи с речью, и использует основные наборы данных, такие как LibriSpeech, LJSpeech, AIShell, CSMSC и т. д. Подробнее см. список моделей. - 🧩 Применение последовательных моделей: как расширение типичных традиционных задач работы с аудио, мы объединяем рабочие процессы этих задач с другими областями, такими как естественный язык (NLP) и компьютерное зрение (CV). ### Последние обновления
  • 👑 2023. 03. 09: Добавлено Wav2vec2ASR-zh.
  • 🎉 2023. 03. 07: Добавлено TTS ARM Linux C++ Demo.
  • 🔥 2023. 03. 03: Добавлено Voice Conversion StarGANv2-VC synthesize pipeline.
  • 🎉 2023. 02. 16: Добавлено Cantonese TTS.
  • 🔥 2023. 01. 10: Добавлено code-switch asr CLI и Demos.
  • 👑 2023. 01. 06: Добавлено code-switch asr tal_cs рецепт.
  • 🎉 2022. 12. 02: Добавлено end-to-end Prosody Prediction pipeline (включает использование меток intonation в Acoustic Model).
  • 🎉 2022. 11. 30: Добавлено TTS Android Demo.
  • 🤗 2022. 11. 28: PP-TTS и PP-ASR демонстрационные примеры доступны в AIStudio и официальном сайте PaddlePaddle.
  • 👑 2022. 11. 18: Добавлено Whisper CLI и Demos, поддержка распознавания речи и перевода на несколько языков.
  • 🔥 2022. 11. 18: Добавлено Wav2vec2 CLI и Demos, поддержка ASR и извлечение признаков.
  • 🎉 2022. 11. 17: Добавлено мужской голос для TTS.
  • 🔥 2022. 11. 07: Добавлено U2/U2++ C++ High Performance Streaming ASR Развертывание.
  • 👑 2022. 11. 01: Добавлено Adversarial Loss для Chinese English mixed TTS. - 🔥 26.10.2022: Добавлено Prosody Prediction для TTS.
  • 🎉 21.10.2022: Добавлено SSML для TTS китайского текстового фронта.
  • 👑 11.10.2022: Добавлено Wav2vec2ASR-en, wav2vec2.0 fine-tuning для ASR на LibriSpeech.
  • 🔥 26.09.2022: Добавлено Voice Cloning, TTS fine-tune, и ERNIE-SAT в PaddleSpeech Web Demo.
  • ⚡ 09.09.2022: Добавлено AISHELL-3 Voice Cloning example с ECAPA-TDNN speaker encoder.
  • ⚡ 25.08.2022: Выпущен TTS fine-tune example.
  • 🔥 22.08.2022: Добавлено ERNIE-SAT модели: ERNIE-SAT-vctk, ERNIE-SAT-aishell3, ERNIE-SAT-zh_en.
  • 🔥 15.08.2022: Добавлен g2pW в TTS китайский текстовый фронтенд.
  • 🔥 09.08.2022: Выпущен TTS с перемешиванием китайского и английского языков.
  • ⚡ 03.08.2022: Добавлена инференция ONNXRuntime для TTS CLI.
  • 🎉 18.07.2022: Выпущен VITS: VITS-csmsc, VITS-aishell3, VITS-VC.
  • 🎉 22.06.2022: Все модели TTS поддерживают формат ONNX.
  • 🍀 17.06.2022: Добавлен Web-демонстрация PaddleSpeech.
  • 👑 13.05.2022: Выпущен PP-ASR, PP-TTS, PP-VPR.
  • 👏🏻 06.05.2022: Доступна PaddleSpeech Streaming Server для Streaming ASR с восстановлением пунктуации, метками времени и синтезом речи.2022: Доступна PaddleSpeech Server для классификации аудио, автоматического распознавания речи, синтеза речи, идентификации говорящего и восстановления пунктуации.
  • 👏🏻 28. 03. 2022: Доступна PaddleSpeech CLI для идентификации говорящего.
  • 👏🏻 10. 12. 2021: Доступна PaddleSpeech CLI для классификации аудио, автоматического распознавания речи, перевода речи (английский на китайский) и синтеза речи.

Сообщество

  • Сканируйте QR-код ниже с помощью WeChat, чтобы получить доступ к официальному сообществу по обмену технологиями и получить бонус (более 20 ГБ учебных материалов, таких как статьи, коды и видео) и прямую ссылку на занятия. Жду вашей участия.

    Установка

    Мы настоятельно рекомендуем нашим пользователям установить PaddleSpeech в Linux с Python>=3.7 и PaddlePaddle>=2.4.1.

    Введение в зависимости

    • gcc >= 4.8.5
    • PaddlePaddle >= 2.4.1
    • Python >= 3.7
    • Поддерживаемые ОС: Linux (рекомендовано), Windows, Mac OS X

    PaddleSpeech зависит от PaddlePaddle. Для установки обратитесь к официальной странице PaddlePaddle и выберите подходящий вариант для вашего оборудования. Вот пример установки версии для CPU.

    pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

    Вы также можете указать конкретную версию PaddlePaddle или установить версию для разработчиков.

    # установка версии 2.4.1. Примечание: bkz 2.4.1 — это просто пример, пожалуйста, следуйте минимальным зависимостям PaddlePaddle при выборе
    pip install paddlepaddle==2.4.1 -i https://mirror.baidu.com/pypi/simple
    # установка версии для разработчиков
    pip install paddlepaddle==0.0.0 -f https://www.paddlepaddle.org.cn/whl/linux/cpu-mkl/develop.html

    Для PaddleSpeech есть два быстрых метода установки: через pip и компиляцию исходного кода (рекомендуется).

    Установка через pip

    pip install pytest-runner
    pip install paddlespeech

    Компиляция исходного кода

    git clone https://github.com/PaddlePaddle/PaddleSpeech.git
    cd PaddleSpeech
    pip install pytest-runner
    pip install .
    ```Для решения проблем с установкой, такими как среда Conda, зависимость от librosa, проблемы с GCC, установка Kaldi и т. д., вы можете обратиться к этому [документу по установке](./docs/source/install.md). Если вы столкнулись с проблемами во время установки, вы можете оставить сообщение на [#2150](https://github.com/PaddlePaddle/PaddleSpeech/issues/2150) и найти связанные проблемы.<a name="quickstart"></a>
    ## Быстрый старт
    
    Разработчики могут протестировать наши модели с помощью [PaddleSpeech Command Line](./paddlespeech/cli/README.md) или Python. Измените `--input`, чтобы протестировать свои аудиофайлы/тексты и поддерживать аудиофайлы формата 16k wav. **Вы также можете быстро протестировать его в AI Studio 👉🏻 [Демонстрация PaddleSpeech API](https://aistudio.baidu.com/aistudio/projectdetail/4353348?sUid=2470186&shared=1&ts=1660876445786)**
    
    
    Пример аудиофайла для скачивания
    
    ```shell
    wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
    wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

    Автоматическое распознавание речи

     (Нажмите, чтобы развернуть) Открытый исходный код для распознавания речи

    Опыт работы с командной строкой

    paddlespeech asr --lang zh --input zh.wav

    Опыт работы с Python API

    >>> from paddlespeech.cli.asr.infer import ASRExecutor
    >>> asr = ASRExecutor()
    >>> result = asr(audio_file="zh.wav")
    >>> print(result)
    Я считаю, что самое важное в беге  это то, что он приносит мне здоровье

    Преобразование текста в речь

     Открытый исходный код для синтеза речи

    Аудиофайл с частотой дискретизации 24кГц

    Опыт работы с командной строкой

    paddlespeech tts --input "Здравствуйте, добро пожаловать использовать глубокую нейронную сеть Baidu Paddle!" \
    --output output.wav

    Опыт работы с Python API

    >>> from paddlespeech.cli.tts.infer import TTSExecutor
    >>> tts = TTSExecutor()
    >>> tts(text="Сегодня погода отличная.", output="output.wav")

    Классификация аудиофайлов

     Инструмент для классификации звука открытого типа

    Модель классификации звука на основе набора данных AudioSet с Yöntemler

    Опыт работы с командной строкой

    paddlespeech cls --input zh.wav

    Опыт работы с Python API

    >>> from paddlespeech.cli.cls.infer import CLSExecutor
    >>> cls = CLSExecutor()
    >>> result = cls(audio_file="zh.wav")
    >>> print(result)
    Речь 0.9027186632156372

    Извлечение голосового отпечатка

     Профессиональный инструмент для извлечения голосового отпечатка

    Опыт работы с командной строкой

    paddlespeech vector --task spk --input zh.wav

    Опыт работы с Python API

    >>> from paddlespeech.cli.vector import VectorExecutor
    >>> vec = VectorExecutor()
    >>> result = vec(audio_file="zh.wav")
    >>> print(result) # 187-мерный вектор
    [ -0.19083306   9.474295   -14.122263    -2.0916545    0.04848729
       4.9295826    1.4780062    0.3733844   10.695862     3.2697146
      -4.48199     -0.6617882   -9.170393   -11.1568775   -1.2358263 ...]

    Восстановление пунктуации

     Быстрое восстановление пунктуации текста, работает с моделями распознавания речи (ASR)

    Опыт работы в командной строке

    paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭

    Опыт работы с Python API

    >>> from paddlespeech.cli.text.infer import TextExecutor
    >>> text_punc = TextExecutor()
    >>> result = text_punc(text="今天的天气真不错啊你下午有空吗我想约你一起去吃饭")
    今天的天气真不错啊你下午有空吗我想约你一起去吃饭

    Перевод речи
     Инструмент полносвязного перевода английской речи на русский язык

    Использует заранее скомпилированные инструменты Kaldi, поддерживает опыт работы только в системах Ubuntu

    Опыт работы в командной строке

    paddlespeech st --input en.wav

    Опыт работы с Python API

    >>> from paddlespeech.cli.st.infer import STExecutor
    >>> st = STExecutor()
    >>> result = st(audio_file="en.wav")
    [['Я стучусь в старую дверь этого здания.']]

    Быстрый запуск сервера

    Разработчики могут попробовать наш сервер распознавания речи с помощью PaddleSpeech Server Command Line.

    Вы можете быстро попробовать его в AI Studio (рекомендовано): SpeechServer

    Запустите сервер

    paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

    Доступ к услугам распознавания речи

    paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

    Доступ к услугам преобразования текста в речь

    paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "Здравствуйте, добро пожаловать использовать сервис синтеза речи компании Baidu." --output output.wav

    Доступ к услугам классификации аудиофайлов

    paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wav

    Для получения более подробной информации о командных строках сервера, пожалуйста, обратитесь к: примеры использования сервера

    Быстрый запуск поточного сервера

    Разработчики могут попробовать сервер поточного распознавания речи и сервер поточного синтеза речи.

    Запуск поточного сервера распознавания речи

    paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml

    Доступ к услугам поточного распознавания речи

    paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

    Запуск поточного сервера синтеза речи

    paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml

    Доступ к услугам поточного синтеза речи

    paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "您好,欢迎使用百度飞桨语音合成服务。" --output output.wav

    Дополнительная информация доступна здесь: поточный распознавание речи и поточный синтез речи

    Список моделей

    PaddleSpeech поддерживает ряд самых популярных моделей. Они подробно описаны в открытых моделях и прилагаются с обученными заранее моделями.

    Распознавание речиСодержит акустическую модель, лингвистическую модель и перевод речи, с следующими деталями:

    Тип модуля распознавания речи Набор данных Тип модели Пример
    Распознавание речи Aishell Глубокое обучение DeepSpeech2 с использованием RNN и свёрточной нейронной сети deepspeech2-aishell
    Модели на основе внимания с использованием Transformer u2.transformer.conformer-aishell
    Librispeech Модели на основе внимания с использованием Transformer deepspeech2-librispeech / transformer.conformer.u2-librispeech / transformer.conformer.u2-kaldi-librispeech
    TIMIT Объединённое потоковое и непотоковое двухпроходное моделирование u2-timit
    Выравнивание THCHS30 MFA mfa-thchs30
    Лингвистическая модель N-граммовая лингвистическая модель kenlm
    Перевод речи (английский язык в китайский) TED En-Zh Transformer + ASR MTL transformer-ted
FAT + Transformer + ASR MTL fat-st-ted
**Текст-в-речь** в PaddleSpeech主要包括三个模块:*Текстовый фронтенд*, *Акустическая модель* и *Вокодер*. Акустические модели и модели вокодера приведены ниже: ```markdown
Тип модуля преобразования текста в речь Тип модели Набор данных Пример
Текстовый фронтенд tn / g2p
Акустическая модель Tacotron2 LJSpeech / CSMSC tacotron2-ljspeech / tacotron2-csmsc
Модель Transformer TTS LJSpeech transformer-ljspeech
SpeedySpeech CSMSC speedyspeech-csmsc
FastSpeech2 LJSpeech / VCTK / CSMSC / AISHELL-3 / ZH_EN / fine-tuning fastspeech2-ljspeech / fastspeech2-vctk / fastspeech2-csmsc / fastspeech2-aishell3 / fastspeech2-zh_en / fastspeech2-fine-tuning
ERNIE-SAT VCTK / AISHELL-3 / ZH_EN ERNIE-SAT-vctk / ERNIE-SAT-aishell3 / ERNIE-SAT-zh_en
Вокодер WaveFlow LJSpeech waveflow-ljspeech
Параллельный WaveGAN LJSpeech / VCTK / CSMSC / AISHELL-3 PWGAN-ljspeech / PWGAN-vctk / PWGAN-csmsc / PWGAN-aishell3
Многополосный MelGAN CSMSC Многополосный MelGAN-csmsc
Стилевой MelGAN CSMSC Стилевой MelGAN-csmsc
HiFiGAN LJSpeech / VCTK / CSMSC / AISHELL-3 HiFiGAN-ljspeech / HiFiGAN-vctk / HiFiGAN-csmsc / HiFiGAN-aishell3
WaveRNN CSMSC WaveRNN-csmsc
Клонирование голоса GE2E Librispeech, etc. GE2E
SV2TTS (GE2E + Tacotron2) AISHELL-3 VC0
SV2TTS (GE2E + FastSpeech2) AISHELL-3 VC1
SV2TTS (ECAPA-TDNN + FastSpeech2) AISHELL-3 VC2
GE2E + VITS AISHELL-3 VITS-VC
Полносвязное моделирование VITS CSMSC / AISHELL-3 VITS-csmsc / VITS-aishell3
``````html
/examples/csmsc/vits">VITS-csmsc / VITS-aishell3
```

Полный текст с исправлениями:

/examples/csmsc/vits">VITS-csmsc</a> / <a href="/examples/aishell3/vits">VITS-aishell3</a>

```html
<table>
  <tbody>
    <tr>
      <td><a href="/examples/csmsc/vits">VITS-csmsc</a> / <a href="/examples/aishell3/vits">VITS-aishell3</a></td>
    </tr>
  </tbody>
</table>
<a name="AudioClassification"></a>
```**Классификация аудио**

<table style="width:100%">
  <thead>
    <tr>
      <th>Задача</th>
      <th>Датасет</th>
      <th>Тип модели</th>
      <th>Пример</th>
    </tr>
  </thead>
  <tbody>
  <tr>
      <td>Классификация аудио</td>
      <td>ESC-50</td>
      <td>PANN</td>
      <td>
      <a href="./examples/esc50/cls0">pann-esc50</a>
      </td>
    </tr>
  </tbody>
</table>

<a name="KeywordSpotting"></a>

**Обнаружение ключевых слов**

<table style="width:100%">
  <thead>
    <tr>
      <th>Задача</th>
      <th>Датасет</th>
      <th>Тип модели</th>
      <th>Пример</th>
    </tr>
  </thead>
  <tbody>
  <tr>
      <td>Обнаружение ключевых слов</td>
      <td>hey-snips</td>
      <td>MDTC</td>
      <td>
      <a href="./examples/hey_snips/kws0">mdtc-hey-snips</a>
      </td>
    </tr>
  </tbody>
</table>

<a name="SpeakerVerification"></a>

**Проверка голоса**

<table style="width:100%">
  <thead>
    <tr>
      <th>Задача</th>
      <th>Датасет</th>
      <th>Тип модели</th>
      <th>Пример</th>
    </tr>
  </thead>
  <tbody>
  <tr>
      <td>Проверка голоса</td>
      <td>VoxCeleb1/2</td>
      <td>ECAPA-TDNN</td>
      <td>
      <a href="./examples/voxceleb/sv0">ecapa-tdnn-voxceleb12</a>
      </td>
    </tr>
  </tbody>
</table>

<a name="SpeakerDiarization"></a>

**Диаризация говорящих**

<table style="width:100%">
  <thead>
    <tr>
      <th>Задача</th>
      <th>Датасет</th>
      <th>Тип модели</th>
      <th>Пример</th>
    </tr>
  </thead>
  <tbody>
  <tr>
      <td>Диаризация говорящих</td>
      <td>AMI</td>
      <td>ECAPA-TDNN + AHC / SC</td>
      <td>
      <a href="./examples/ami/sd0">ecapa-tdnn-ami</a>
      </td>
    </tr>
  </tbody>
</table>

<a name="PunctuationRestoration"></a>

**Восстановление пунктуации**

<table style="width:100%">
  <thead>
    <tr>
      <th>Задача</th>
      <th>Датасет</th>
      <th>Тип модели</th>
      <th>Пример</th>
    </tr>
  </thead>
  <tbody>
  <tr>
      <td>Восстановление пунктуации</td>
      <td>IWLST2012_zh</td>
      <td>Ernie Linear</td>
      <td>
      <a href="./examples/iwslt2012/punc0">iwslt2012-punc0</a>
      </td>
    </tr>
  </tbody>
</table>## Документы

Обычно, [Speech SoTA](https://paperswithcode.com/area/speech), [Audio SoTA](https://paperswithcode.com/area/audio) и [Music SoTA](https://paperswithcode.com/area/music) предоставляют общее представление о популярных академических темах в соответствующей области. Чтобы сосредоточиться на задачах в PaddleSpeech, следующие руководства помогут вам понять основные идеи:

- [Установка](./docs/source/install.md)
- [Быстрый старт](#quickstart)
- [Некоторые демонстрационные примеры](./demos/README.md)
- Учебники
  - [Автоматическое распознавание речи](./docs/source/asr/quick_start.md)
    - [Введение](./docs/source/asr/models_introduction.md)
    - [Подготовка данных](./docs/source/asr/data_preparation.md)
    - [Ngram LM](./docs/source/asr/ngram_lm.md)
  - [Текст в речь](./docs/source/tts/quick_start.md)
    - [Введение](./docs/source/tts/models_introduction.md)
    - [Расширенное использование](./docs/source/tts/advanced_usage.md)
    - [Китайская базовая модель текстового фронтенда](./docs/source/tts/zh_text_frontend.md)
    - [Примеры аудио](https://paddlespeech.readthedocs.io/en/latest/tts/demo.html)
  - [Верификация говорящего](. /demos/speaker_verification/README. md)
    - [Поиск аудиофайлов](. /demos/audio_searching/README. md)
  - [Классификация аудио](. /demos/audio_tagging/README. md)
  - [Перевод речи](. /demos/speech_translation/README. md)
  - [Сервер речи](. /demos/speech_server/README. md)

- [Открытые модели](./docs/source/released_model.md)
  - [Речь в текст](#SpeechToText)
  - [Текст в речь](#TextToSpeech)
  - [Классификация аудио](#AudioClassification)
  - [Верификация говорящего](#SpeakerVerification)
  - [Диаризация говорящих](#SpeakerDiarization)
  - [Восстановление знаков препинания](#PunctuationRestoration)

- [Общество](#Community)- [Приглашение к вкладу](#contribution)
 - [Лицензия](#License)Модуль "Текст в речь" ранее назывался [Parakeet](https://github.com/PaddlePaddle/Parakeet), но теперь он объединён с этим репозиторием. Если вас интересует академическая работа над этой задачей, пожалуйста, обратитесь к [общему обзору исследований TTS](https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/docs/source/tts#overview). Также [этот документ](https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/source/tts/models_introduction.md) является хорошим руководством для компонентов конвейера.

## ⭐ Примеры
- **[PaddleBoBo](https://github.com/JiehangXie/PaddleBoBo): Используйте PaddleSpeech TTS для генерации голоса виртуального человека.**

<div align="center"><a href="https://www.bilibili.com/video/BV1cL411V71o?share_source=copy_web"><img src="https://ai-studio-static-online.cdn.bcebos.com/06fd746ab32042f398fb6f33f873e6869e846fe63c214596ae37860fe8103720" /></a></div>
- [Демонстрационное видео PaddleSpeech](https://paddlespeech.readthedocs.io/en/latest/demo_video.html)

- **[VTuberTalk](https://github.com/jerryuhoo/VTuberTalk): Используйте PaddleSpeech TTS и ASR для клонирования голоса с видео.**

<div align="center">
<img src="https://raw.githubusercontent.com/jerryuhoo/VTuberTalk/main/gui/gui.png"  width = "500px"  />
</div>

## Цитирование

Чтобы цитировать PaddleSpeech в исследовании, пожалуйста, используйте следующий формат.
```text
@InProceedings{pmlr-v162-bai22d,
  title = {{A}$^3${T}: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing},
  author = {Бай, Хэ и Чжэн, Реньцзи и Чен, Жункун и Ма, Минбо и Ли, Синьтонг и Хуанг, Лян},
  booktitle = {Proceedings of the 39th International Conference on Machine Learning},
  pages = {1399--1411},
  year = {2022},
  volume = {162},
  series = {Proceedings of Machine Learning Research},
  month = {17--23 Jul},
  publisher = {PMLR},
  pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
  url = {https://proceedings.mlr.press/v162/bai22d.html},
}
``````latex
@inproceedings{zhang2022paddlespeech,
    title = {PaddleSpeech: Инструментарий для работы со звуками},
    author = {Чжан Хуи, Юань Тянь, Чен Жункун, Ли Синьтонг, Чжэн Реньцзи, Гоу Янчжу, Чен Сяочжэнь, Гонг Энлай, Чен Цзею, Гу Сяогуань, Ю Дианхай, Ма Янджун, Хуанг Лян},
    booktitle = {Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Demonstrations},
    year = {2022},
    publisher = {Association for Computational Linguistics},
}

@inproceedings{zheng2021fused,
  title={Fused acoustic and text encoding for multimodal bilingual pretraining and speech translation},
  author={Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Huang, Liang},
  booktitle={International Conference on Machine Learning},
  pages={12736--12746},
  year={2021},
  organization={PMLR}
}

Внесите свой вклад в проект PaddleSpeech

Установка

Для установки PaddleSpeech выполните следующую команду:

pip install paddlespeech

Вы всегда можете задавать вопросы в разделе discussions и отправлять отчеты о багах в разделе issues! Также мы очень благодарны за ваше желание внести свой вклад в этот проект!

Участники

``````markdown

Благодарность

  • Огромное спасибо HighCWu за добавление примеров VITS-aishell3 и VITS-VC.

  • Огромное спасибо david-95.com/david-95) за исправление ошибки с многоточием, внесение множества улучшений в программы и данные, а также добавление SSML для передней части текста TTS на китайском языке.

    • Огромное спасибо BarryKCL за улучшение передней части текста TTS на китайском языке на основе G2PW.
    • Огромное спасибо yeyupiaoling/PPASR/PaddlePaddle-DeepSpeech/VoiceprintRecognition-PaddlePaddle/AudioClassification-PaddlePaddle за годы внимательной работы, конструктивных советов и большого вклада.
    • Огромное спасибо mymagicpower за реализацию ASR на Java для коротких (short) и длинных (long) аудиофайлов.
    • Огромное спасибо JiehangXie/PaddleBoBo за создание Виртуального Загрузчика (VUP)/Виртуального Ютубера (VTuber) с использованием функции TTS PaddleSpeech.
    • Огромное спасибо 745165806/PaddleSpeechTask за внесение модели восстановления пунктуации.
    • Огромное спасибо kslz за дополнительные китайские документы.
    • Огромное спасибо awmmmm за внесение модели предобученной на данных fastspeech2 aishell3 conformer.
    • Огромное спасибо phecda-xucom/phecda-xu)/PaddleDubbing за создание инструмента для дублирования с графическим интерфейсом на основе модели TTS PaddleSpeech.
    • Огромное спасибо jerryuhoo/VTuberTalk за создание графического инструмента на основе TTS PaddleSpeech и кода для создания наборов данных из видео на основе ASR PaddleSpeech.
    • Огромное спасибо vpegasus/xuesebot. (Ссылка на проект: vpegasus/xuesebot) за развитие чат-бота на основе Rasa, который может говорить и слушать благодаря PaddleSpeech.- Благодарю chenkui164/FastASR за реализацию вывода на C++ для распознавания речи в PaddleSpeech.
  • Благодарю heyudage/VoiceTyping за реализацию инструмента для реального времени голосового набора текста для потоковых услуг распознавания речи в PaddleSpeech.

  • Благодарю EscaticZheng/ps3.9wheel-install за готовый Python 3.9 wheel для установки PaddleSpeech на Windows без использования Visual Studio.

Кроме того, PaddleSpeech зависит от многих открытых репозиториев. Для получения более подробной информации см. раздел ссылки.

Лицензия

PaddleSpeech предоставляется под лицензией Apache-2.0.

Количество звезд со временем

Количество звезд со временем

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

DeepSpeech2 — это открытый проект, представляющий собой систему автоматического распознавания речи (ASR) с использованием платформы PaddlePaddle. Развернуть Свернуть
Python и 6 других языков
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/paddlepaddle-DeepSpeech.git
git@api.gitlife.ru:oschina-mirror/paddlepaddle-DeepSpeech.git
oschina-mirror
paddlepaddle-DeepSpeech
paddlepaddle-DeepSpeech
develop