(упрощенный китайский | Русский)
------------------------------------------------------------------------------------PaddleSpeech — это открытый набор инструментов на платформе PaddlePaddle для выполнения различных задач в области речи и аудио с использованием передовых и влиятельных моделей. PaddleSpeech выиграл NAACL2022 Best Demo Award, пожалуйста, проверьте нашу статью на Arxiv.
Входной аудио | Результат распознавания |
---|---|
![]() |
I knocked at the door on the ancient side of the building. |
![]() |
Я считаю, что самое важное в бегах — это то, что они приносят мне здоровье. |
Вводный текст | Синтетический аудио | ||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Жизнь — это как коробка шоколадов, ты никогда не знаешь, что получишь. |
![]() |
||||||||||||||||||||||||||||||||||||
Доброе утро, сегодня 2020/10/29, минимальная температура −3°C. |
![]() |
||||||||||||||||||||||||||||||||||||
Жижи, Жи жи, Жи жи. Жи жи жаждет, Жи жи и Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, ЖиЖи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи.Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи. Жи жи ждут, Жи жи ждут Жи жи.Жи жи зиждут, Жи жи зиждут Жи жи. Жи жи зиждут, Жи жи зиждут```markdown
Восстановление пунктуации
ВозможностиС помощью удобного в использовании, эффективного, гибкого и масштабируемого решения наша цель — обеспечить как промышленное применение, так и академическое исследование, включая модули обучения, вывода и тестирования, а также процесс развертывания. Более конкретно, этот набор инструментов имеет следующие особенности:- 📦 Удобство использования: низкие барьеры для установки, CLI, сервер и стриминговый сервер доступны для быстрого старта.
Сообщество
|
Тип модуля преобразования текста в речь | Тип модели | Набор данных | Пример | |||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Текстовый фронтенд | tn / g2p | |||||||||||||||||||||||||||||||
Акустическая модель | Tacotron2 | LJSpeech / CSMSC | tacotron2-ljspeech / tacotron2-csmsc | |||||||||||||||||||||||||||||
Модель Transformer TTS | LJSpeech | transformer-ljspeech | ||||||||||||||||||||||||||||||
SpeedySpeech | CSMSC | speedyspeech-csmsc | ||||||||||||||||||||||||||||||
FastSpeech2 | LJSpeech / VCTK / CSMSC / AISHELL-3 / ZH_EN / fine-tuning | fastspeech2-ljspeech / fastspeech2-vctk / fastspeech2-csmsc / fastspeech2-aishell3 / fastspeech2-zh_en / fastspeech2-fine-tuning | ||||||||||||||||||||||||||||||
ERNIE-SAT | VCTK / AISHELL-3 / ZH_EN | ERNIE-SAT-vctk / ERNIE-SAT-aishell3 / ERNIE-SAT-zh_en | ||||||||||||||||||||||||||||||
Вокодер | WaveFlow | LJSpeech | waveflow-ljspeech | |||||||||||||||||||||||||||||
Параллельный WaveGAN | LJSpeech / VCTK / CSMSC / AISHELL-3 | PWGAN-ljspeech / PWGAN-vctk / PWGAN-csmsc / PWGAN-aishell3 | ||||||||||||||||||||||||||||||
Многополосный MelGAN | CSMSC | Многополосный MelGAN-csmsc | |
Стилевой MelGAN | CSMSC | Стилевой MelGAN-csmsc | |
HiFiGAN | LJSpeech / VCTK / CSMSC / AISHELL-3 | HiFiGAN-ljspeech / HiFiGAN-vctk / HiFiGAN-csmsc / HiFiGAN-aishell3 | |
WaveRNN | CSMSC | WaveRNN-csmsc | |
Клонирование голоса | GE2E | Librispeech, etc. | GE2E |
SV2TTS (GE2E + Tacotron2) | AISHELL-3 | VC0 | |
SV2TTS (GE2E + FastSpeech2) | AISHELL-3 | VC1 | |
SV2TTS (ECAPA-TDNN + FastSpeech2) | AISHELL-3 | VC2 | |
GE2E + VITS | AISHELL-3 | VITS-VC | |
Полносвязное моделирование | VITS | CSMSC / AISHELL-3 | VITS-csmsc / VITS-aishell3 |
/examples/csmsc/vits">VITS-csmsc / VITS-aishell3 |
Полный текст с исправлениями:
/examples/csmsc/vits">VITS-csmsc</a> / <a href="/examples/aishell3/vits">VITS-aishell3</a>
```html
<table>
<tbody>
<tr>
<td><a href="/examples/csmsc/vits">VITS-csmsc</a> / <a href="/examples/aishell3/vits">VITS-aishell3</a></td>
</tr>
</tbody>
</table>
<a name="AudioClassification"></a>
```**Классификация аудио**
<table style="width:100%">
<thead>
<tr>
<th>Задача</th>
<th>Датасет</th>
<th>Тип модели</th>
<th>Пример</th>
</tr>
</thead>
<tbody>
<tr>
<td>Классификация аудио</td>
<td>ESC-50</td>
<td>PANN</td>
<td>
<a href="./examples/esc50/cls0">pann-esc50</a>
</td>
</tr>
</tbody>
</table>
<a name="KeywordSpotting"></a>
**Обнаружение ключевых слов**
<table style="width:100%">
<thead>
<tr>
<th>Задача</th>
<th>Датасет</th>
<th>Тип модели</th>
<th>Пример</th>
</tr>
</thead>
<tbody>
<tr>
<td>Обнаружение ключевых слов</td>
<td>hey-snips</td>
<td>MDTC</td>
<td>
<a href="./examples/hey_snips/kws0">mdtc-hey-snips</a>
</td>
</tr>
</tbody>
</table>
<a name="SpeakerVerification"></a>
**Проверка голоса**
<table style="width:100%">
<thead>
<tr>
<th>Задача</th>
<th>Датасет</th>
<th>Тип модели</th>
<th>Пример</th>
</tr>
</thead>
<tbody>
<tr>
<td>Проверка голоса</td>
<td>VoxCeleb1/2</td>
<td>ECAPA-TDNN</td>
<td>
<a href="./examples/voxceleb/sv0">ecapa-tdnn-voxceleb12</a>
</td>
</tr>
</tbody>
</table>
<a name="SpeakerDiarization"></a>
**Диаризация говорящих**
<table style="width:100%">
<thead>
<tr>
<th>Задача</th>
<th>Датасет</th>
<th>Тип модели</th>
<th>Пример</th>
</tr>
</thead>
<tbody>
<tr>
<td>Диаризация говорящих</td>
<td>AMI</td>
<td>ECAPA-TDNN + AHC / SC</td>
<td>
<a href="./examples/ami/sd0">ecapa-tdnn-ami</a>
</td>
</tr>
</tbody>
</table>
<a name="PunctuationRestoration"></a>
**Восстановление пунктуации**
<table style="width:100%">
<thead>
<tr>
<th>Задача</th>
<th>Датасет</th>
<th>Тип модели</th>
<th>Пример</th>
</tr>
</thead>
<tbody>
<tr>
<td>Восстановление пунктуации</td>
<td>IWLST2012_zh</td>
<td>Ernie Linear</td>
<td>
<a href="./examples/iwslt2012/punc0">iwslt2012-punc0</a>
</td>
</tr>
</tbody>
</table>## Документы
Обычно, [Speech SoTA](https://paperswithcode.com/area/speech), [Audio SoTA](https://paperswithcode.com/area/audio) и [Music SoTA](https://paperswithcode.com/area/music) предоставляют общее представление о популярных академических темах в соответствующей области. Чтобы сосредоточиться на задачах в PaddleSpeech, следующие руководства помогут вам понять основные идеи:
- [Установка](./docs/source/install.md)
- [Быстрый старт](#quickstart)
- [Некоторые демонстрационные примеры](./demos/README.md)
- Учебники
- [Автоматическое распознавание речи](./docs/source/asr/quick_start.md)
- [Введение](./docs/source/asr/models_introduction.md)
- [Подготовка данных](./docs/source/asr/data_preparation.md)
- [Ngram LM](./docs/source/asr/ngram_lm.md)
- [Текст в речь](./docs/source/tts/quick_start.md)
- [Введение](./docs/source/tts/models_introduction.md)
- [Расширенное использование](./docs/source/tts/advanced_usage.md)
- [Китайская базовая модель текстового фронтенда](./docs/source/tts/zh_text_frontend.md)
- [Примеры аудио](https://paddlespeech.readthedocs.io/en/latest/tts/demo.html)
- [Верификация говорящего](. /demos/speaker_verification/README. md)
- [Поиск аудиофайлов](. /demos/audio_searching/README. md)
- [Классификация аудио](. /demos/audio_tagging/README. md)
- [Перевод речи](. /demos/speech_translation/README. md)
- [Сервер речи](. /demos/speech_server/README. md)
- [Открытые модели](./docs/source/released_model.md)
- [Речь в текст](#SpeechToText)
- [Текст в речь](#TextToSpeech)
- [Классификация аудио](#AudioClassification)
- [Верификация говорящего](#SpeakerVerification)
- [Диаризация говорящих](#SpeakerDiarization)
- [Восстановление знаков препинания](#PunctuationRestoration)
- [Общество](#Community)- [Приглашение к вкладу](#contribution)
- [Лицензия](#License)Модуль "Текст в речь" ранее назывался [Parakeet](https://github.com/PaddlePaddle/Parakeet), но теперь он объединён с этим репозиторием. Если вас интересует академическая работа над этой задачей, пожалуйста, обратитесь к [общему обзору исследований TTS](https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/docs/source/tts#overview). Также [этот документ](https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/source/tts/models_introduction.md) является хорошим руководством для компонентов конвейера.
## ⭐ Примеры
- **[PaddleBoBo](https://github.com/JiehangXie/PaddleBoBo): Используйте PaddleSpeech TTS для генерации голоса виртуального человека.**
<div align="center"><a href="https://www.bilibili.com/video/BV1cL411V71o?share_source=copy_web"><img src="https://ai-studio-static-online.cdn.bcebos.com/06fd746ab32042f398fb6f33f873e6869e846fe63c214596ae37860fe8103720" /></a></div>
- [Демонстрационное видео PaddleSpeech](https://paddlespeech.readthedocs.io/en/latest/demo_video.html)
- **[VTuberTalk](https://github.com/jerryuhoo/VTuberTalk): Используйте PaddleSpeech TTS и ASR для клонирования голоса с видео.**
<div align="center">
<img src="https://raw.githubusercontent.com/jerryuhoo/VTuberTalk/main/gui/gui.png" width = "500px" />
</div>
## Цитирование
Чтобы цитировать PaddleSpeech в исследовании, пожалуйста, используйте следующий формат.
```text
@InProceedings{pmlr-v162-bai22d,
title = {{A}$^3${T}: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing},
author = {Бай, Хэ и Чжэн, Реньцзи и Чен, Жункун и Ма, Минбо и Ли, Синьтонг и Хуанг, Лян},
booktitle = {Proceedings of the 39th International Conference on Machine Learning},
pages = {1399--1411},
year = {2022},
volume = {162},
series = {Proceedings of Machine Learning Research},
month = {17--23 Jul},
publisher = {PMLR},
pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
url = {https://proceedings.mlr.press/v162/bai22d.html},
}
``````latex
@inproceedings{zhang2022paddlespeech,
title = {PaddleSpeech: Инструментарий для работы со звуками},
author = {Чжан Хуи, Юань Тянь, Чен Жункун, Ли Синьтонг, Чжэн Реньцзи, Гоу Янчжу, Чен Сяочжэнь, Гонг Энлай, Чен Цзею, Гу Сяогуань, Ю Дианхай, Ма Янджун, Хуанг Лян},
booktitle = {Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Demonstrations},
year = {2022},
publisher = {Association for Computational Linguistics},
}
@inproceedings{zheng2021fused,
title={Fused acoustic and text encoding for multimodal bilingual pretraining and speech translation},
author={Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Huang, Liang},
booktitle={International Conference on Machine Learning},
pages={12736--12746},
year={2021},
organization={PMLR}
}
Для установки PaddleSpeech выполните следующую команду:
pip install paddlespeech
Вы всегда можете задавать вопросы в разделе discussions и отправлять отчеты о багах в разделе issues! Также мы очень благодарны за ваше желание внести свой вклад в этот проект!
Огромное спасибо HighCWu за добавление примеров VITS-aishell3 и VITS-VC.
Огромное спасибо david-95.com/david-95) за исправление ошибки с многоточием, внесение множества улучшений в программы и данные, а также добавление SSML для передней части текста TTS на китайском языке.
Благодарю heyudage/VoiceTyping за реализацию инструмента для реального времени голосового набора текста для потоковых услуг распознавания речи в PaddleSpeech.
Благодарю EscaticZheng/ps3.9wheel-install за готовый Python 3.9 wheel для установки PaddleSpeech на Windows без использования Visual Studio.
Кроме того, PaddleSpeech зависит от многих открытых репозиториев. Для получения более подробной информации см. раздел ссылки.
Благодарю chinobing/FastAPI-PaddleSpeech-Audio-To-Text за конвертацию аудио в текст с использованием FastAPI и PaddleSpeech.
Благодарю MistEO/Pallas-Bot за бота для QQ на основе PaddleSpeech TTS.
PaddleSpeech предоставляется под лицензией Apache-2.0.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )