ESPnet: end-to-end speech processing toolkit
ESPnet — это комплексный инструментарий для обработки речи, охватывающий распознавание речи, синтез речи, перевод речи, улучшение речи, разделение речи по дикторам, понимание разговорной речи и т. д.
ESPnet использует PyTorch в качестве движка глубокого обучения, а также следует стилю обработки данных Kaldi, формату извлечения/представления признаков и рецептам для обеспечения полной настройки различных экспериментов по обработке речи.
Пожалуйста, обратитесь к странице учебника для получения полной документации.
Сегментация CTC.
Модель без авторегрессии на основе Mask-CTC.
Примеры ASR для поддержки документации исчезающих языков (подробности см. в egs/puebla_nahuatl и egs/yoloxochitl_mixtec).
Предварительно обученная модель Wav2Vec2.0 в качестве кодера, импортированная из FairSeq.
Самостоятельное обучение представлениям в качестве признаков с использованием восходящих моделей в S3PRL во внешнем интерфейсе.
frontend
значение s3prl
.frontend_conf
соответствующее имя.Трансфертное обучение:
Потоковое распознавание речи с помощью Transformer/Conformer ASR с блочным синхронным поиском луча.
Ограниченное самовнимание на основе Longformer в качестве кодировщика для длинных последовательностей.
Модель OpenAI Whisper, надёжное распознавание речи на основе крупномасштабного слабоконтролируемого многозадачного обучения.
Демонстрация:
Демонстрация:
Для обучения нейронного вокодера проверьте следующие репозитории:
Демонстрация:
Архитектура:
SVS: Singing Voice Synthesis
SSL: Самостоятельное обучение
UASR: Неконтролируемое распознавание речи (EURO: ESPnet Неконтролируемое Распознавание — Open-source)
S2T: Речь в текст с многоязычными мультизадачными моделями Whisper-style
DNN Framework
ESPnet2
См. ESPnet2.
Если вы собираетесь проводить полные эксперименты, включая обучение DNN, см. Установка.
Если вам нужен только модуль Python:
# Мы рекомендуем установить PyTorch перед установкой espnet, следуя https://pytorch.org/get-started/locally/
pip install espnet
# Для установки последней версии
# pip install git+https://github.com/espnet/espnet
# Чтобы установить дополнительные пакеты
# pip install "espnet[all]"
Если вы используете ESPnet1, установите chainer и cupy.
pip install chainer==6.0.0 cupy==6.0.0 # [Option]
Вам могут потребоваться некоторые пакеты в зависимости от каждой задачи. Мы подготовили различные сценарии установки в tools/installers.
(ESPnet2) После установки запустите wandb login
и установите --use_wandb true
, чтобы включить отслеживание запусков с помощью W&B.
Перейдите в docker/ и следуйте инструкциям.
Спасибо, что уделили время ESPnet! Любые вклады в ESPnet приветствуются, и не стесняйтесь задавать вопросы или запросы по проблемам. Если это ваш первый вклад в ESPnet, пожалуйста, следуйте руководству по вкладу.
Мы приводим коэффициент ошибок символов (CER) и коэффициент ошибок слов (WER) для основных задач распознавания речи. | CER (%) | WER (%) | Предварительно обученная модель |
---|---|---|---|
Aishell разработка/тестирование | 4,6/5,1 | N/A | ссылка |
ESPnet2 Aishell разработка/тестирование | 4,1/4,4 | N/A | ссылка |
Common Voice разработка/тестирование | 1,7/1,8 | 2,2/2,3 | ссылка |
CSJ eval1/eval2/eval3 | 5,7/3,8/4,2 | N/A | ссылка |
ESPnet2 CSJ eval1/eval2/eval3 | 4,5/3,3/3,6 | N/A | ссылка |
ESPnet2 GigaSpeech разработка/тестирование | N/A | 10,6/10,5 | ссылка |
HKUST разработка | 23,5 | N/A | ссылка |
ESPnet2 HKUST разработка | 21,2 | N/A | ссылка |
Librispeech разработка_чистый/разработка_другой/тестирование_чистое/тестирование_другое | N/A | 1,9/4,9/2,1/4,9 | ссылка |
ESPnet2 Librispeech разработка_чистый/разработка_другой/тестирование_чистое/тестирование_другое | 0,6/1,5/0,6/1,4 | 1,7/3,4/1,8/3,6 | ссылка |
Switchboard (eval2000) callhm/swbd | N/A | 14,0/6,8 | ссылка |
ESPnet2 Switchboard (eval2000) callhm/swbd | N/A | 13,4/7,3 | ссылка |
TEDLIUM2 разработка/тестирование | N/A | 8,6/7,2 | ESPnet2 TEDLIUM2 dev/test |
TEDLIUM3 dev/test | N/A | 9.6/7.6
WSJ dev93/eval92 | 3.2/2.1 | 7.0/4.7
ESPnet2 WSJ dev93/eval92 | 1.1/0.8 | 2.8/1.8
Обратите внимание, что производительность задач CSJ, HKUST и Librispeech была значительно улучшена за счёт использования широкой сети (#units = 1024) и больших субсловных единиц, о чём сообщалось в RWTH.
Если вы хотите проверить результаты других рецептов, пожалуйста, проверьте egs/<name_of_recipe>/asr1/RESULTS.md.
Вы можете распознавать речь в файле WAV с помощью предварительно обученных моделей. Перейдите в каталог рецептов и запустите utils/recog_wav.sh следующим образом:
# перейдите в каталог рецептов и путь к инструментам espnet
cd egs/tedlium2/asr1 && . ./path.sh
# давайте распознаем речь!
recog_wav.sh --models tedlium2.transformer.v1 example.wav
где example.wav — файл WAV, который нужно распознать. Частота дискретизации должна соответствовать частоте данных, используемых при обучении.
В демо-скрипте доступны следующие предварительно обученные модели.
Модель | Примечания |
---|---|
tedlium2.rnn.v1 | Потоковое декодирование на основе VAD на основе CTC |
tedlium2.rnn.v2 | Потоковое декодирование на основе VAD на основе CTC (пакетное декодирование) |
tedlium2.transformer.v1 | Трансформатор с совместным вниманием, обученный на Tedlium 2 |
tedlium3.transformer.v1 | Трансформатор с совместным вниманием, обученный на Tedlium 3 |
librispeech.transformer.v1 | Трансформатор с совместным вниманием, обученный на Librispeech |
commonvoice.transformer.v1 | Трансформатор с совместным вниманием, обученный на CommonVoice |
csj.transformer.v1 | Трансформатор с совместным вниманием, обученный на CSJ |
csj.rnn.v1 | VGGBLSTM с совместным вниманием, обученным на CSJ |
Мы приводим результаты трёх разных моделей на WSJ0-2mix, которые являются одним из наиболее широко используемых эталонных наборов данных для разделения речи. | SAR | SDR | SIR | | ------------------------------------------------- | ---- | ----- | ----- | ----- | | TF Masking | 0,89 | 11,40 | 10,24 | 18,04 | | Conv-Tasnet | 0,95 | 16,62 | 15,94 | 25,90 | | DPRNN-Tasnet | 0,96 | 18,82 | 18,29 | 28,92 |
SE demos
Вы можете попробовать интерактивную демонстрацию с Google Colab. Пожалуйста, нажмите на следующую кнопку, чтобы получить доступ к демонстрациям.
Она основана на ESPnet2. Доступны предварительно обученные модели как для задач улучшения речи, так и для разделения речи.
Демонстрации потокового разделения речи:
ST results
Мы приводим 4-граммовый BLEU основных задач ST.
End-to-end system
Задача | BLEU | Pre-trained model |
---|---|---|
Fisher-CallHome Spanish fisher_test (Es->En) | 51,03 | link |
Fisher-CallHome Spanish callhome_evltest (Es->En) | 20,44 | link |
Libri-trans test (En->Fr) | 16,70 | link |
How2 dev5 (En->Pt) | 45,68 | link |
Must-C tst-COMMON (En->De) | 22,91 | link |
Mboshi-French dev (Fr->Mboshi) | 6,18 | N/A |
Cascaded system
Задача | BLEU | Pre-trained model |
---|---|---|
Fisher-CallHome Spanish fisher_test (Es->En) | 42,16 | N/A |
Fisher-CallHome Spanish callhome_evltest (Es->En) | 19,82 | N/A |
Libri-trans test (En->Fr) | 16,96 | N/A |
How2 dev5 (En->Pt) | 44,90 | N/A |
Must-C tst-COMMON (En->De) | 23,65 | N/A |
Если вы хотите проверить результаты других рецептов, пожалуйста, проверьте egs/<name_of_recipe>/st1/RESULTS.md
.
ST demo
(New!) Мы сделали новую демонстрацию E2E-ST + TTS в реальном времени в Google Colab. Пожалуйста, перейдите по кнопке в ноутбуке и наслаждайтесь переводом речи в реальном времени!
Вы можете переводить речь из файла WAV с помощью предварительно обученных моделей.
Перейдите в каталог с рецептами и запустите utils/translate_wav.sh
следующим образом:
# Перейдите в каталог с рецептами и путь к инструментам espnet
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# Скачайте пример файла WAV
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# Переведите речь!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav
где test.wav
— файл WAV для перевода.
Частота дискретизации должна соответствовать частоте данных, использованных при обучении.
В демо-скрипте доступны следующие предварительно обученные модели.
Модель | Примечания |
---|---|
fisher_callhome_spanish.transformer.v1 | Transformer-ST, обученный на Fisher-CallHome Spanish Es->En |
Задача | BLEU | Предварительно обученная модель |
---|---|---|
Fisher-CallHome испанский fisher_test (Es->En) | 61.45 | ссылка |
Fisher-CallHome испанский callhome_evltest (Es->En) | 29.86 | ссылка |
Libri-trans тест (En->Fr) | 18.09 | ссылка |
How2 dev5 (En->Pt) | 58.61 | ссылка |
Must-C tst-COMMON (En->De) | 27.63 | ссылка |
IWSLT'14 тест2014 (En->De) | 24.70 | ссылка |
IWSLT'14 тест2014 (De->En) | 29.22 | ссылка |
IWSLT'14 тест2014 (De->En) | 32.2 | ссылка |
IWSLT'16 тест2014 (En->De) | 24.05 | ссылка |
IWSLT'16 тест2014 (De->En) | 29.13 | TTS results |
ESPnet2
Сгенерированные образцы можно прослушать по следующей ссылке.
Обратите внимание, что при генерации мы используем Griffin-Lim (
wav/
) и Parallel WaveGAN (wav_pwg/
).
Предварительно обученные модели можно скачать через espnet_model_zoo
.
Предварительно обученные вокодеры можно скачать через kan-bayashi/ParallelWaveGAN
.
ESPnet1
Примечание: Мы переходим на разработку на основе ESPnet2 для TTS. Пожалуйста, ознакомьтесь с последними результатами в разделе выше.
Наши образцы можно послушать в демо HP [espnet-tts-sample]. Вот некоторые из них:
Все предварительно обученные модели и сгенерированные выборки можно скачать:
Обратите внимание, что в сгенерированных образцах мы используем следующие вокодеры: Griffin-Lim (GL), WaveNet vocoder (WaveNet), Parallel WaveGAN (ParallelWaveGAN) и MelGAN (MelGAN). Нейронные вокодеры основаны на следующих репозиториях.
Если вы хотите создать свой собственный нейронный вокодер, пожалуйста, проверьте указанные выше репозитории. kan-bayashi/ParallelWaveGAN предоставляет руководство о том, как декодировать функции модели ESPnet-TTS с помощью нейронных вокодеров. Пожалуйста, проверьте его.
Здесь мы перечисляем все предварительно обученные нейронные вокодеры. Пожалуйста... Скачайте и наслаждайтесь генерацией высококачественной речи!
Если вы хотите использовать указанные выше предварительно обученные вокодеры, пожалуйста, точно соблюдайте указанные настройки функций.
ESPnet2
Вы можете попробовать демо в реальном времени в Google Colab. Пожалуйста, получите доступ к ноутбуку с помощью следующей кнопки и насладитесь синтезом в реальном времени!
— Демо в реальном времени TTS с ESPnet2
В демо доступны модели на английском, японском и китайском языках.
ESPnet1
Примечание: Мы переходим на новый этап. Разработка на основе ESPnet2 для TTS.
Пожалуйста, ознакомьтесь с последней демонстрацией в приведённой выше демонстрации ESPnet2.
Вы можете попробовать демонстрацию в реальном времени в Google Colab.
Получите доступ к ноутбуку с помощью следующей кнопки и наслаждайтесь синтезом в реальном времени.
Демонстрация TTS в реальном времени с ESPnet1
Мы также предоставляем сценарий оболочки для выполнения синтеза. Перейдите в каталог рецептов и запустите utils/synth_wav.sh
следующим образом:
# Перейдите в каталог рецептов и путь к инструментам espnet
cd egs/ljspeech/tts1 && . ./path.sh
# Мы используем последовательность символов верхнего регистра для модели по умолчанию.
echo "ЭТО ДЕМОНСТРАЦИЯ ПРЕОБРАЗОВАНИЯ ТЕКСТА В РЕЧЬ." > example.txt
# Давайте синтезируем речь!
synth_wav.sh example.txt
Также вы можете использовать несколько предложений:
echo "ЭТО ДЕМОНСТРАЦИЯ ПРЕОБРАЗОВАНИЯ ТЕКСТА В РЕЧЬ." > example_multi.txt
echo "ПРЕОБРАЗОВАНИЕ ТЕКСТА В РЕЧЬ — ЭТО МЕТОД ПРЕОБРАЗОВАНИЯ ТЕКСТА В РЕЧЬ." >> example_multi.txt
synth_wav.sh example_multi.txt
Можно изменить предварительно обученную модель следующим образом:
synth_wav.sh --models ljspeech.fastspeech.v1 example.txt
Синтез сигналов выполняется с использованием алгоритма Гриффина-Лима и нейронных вокодеров (WaveNet и ParallelWaveGAN).
Можно изменить предварительно обученный вокодер следующим образом:
synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt
Вокодер WaveNet обеспечивает очень высокое качество речи, но требует времени для генерации.
Дополнительные сведения или доступные модели можно получить с помощью --help
.
synth_wav.sh --help
Некоторые образцы можно прослушать на демонстрационной веб-странице.
В Voice Conversion Challenge 2020 (VCC2020) используется ESPnet для создания базовой системы на основе «конец-в-конец». В VCC2020 целью является внутри- и межъязыковая непараллельная VC. Вы можете загрузить преобразованные образцы базовой каскадной системы ASR+TTS здесь.
Мы приводим показатели производительности для различных задач и наборов данных SLU, используя метрику, указанную в оригинальной статье о наборе данных.
Задача | Набор данных | Метрика | Результат | Предварительно обученная модель |
---|---|---|---|---|
Классификация намерений | SLURP | Acc | 86.3 | ссылка |
Классификация намерений | FSC | Acc | 99.6 | ссылка |
Классификация намерений | FSC Unseen Speaker Set | Acc | 98.6 | ссылка |
Классификация намерений | FSC Unseen Utterance Set | Acc | 86.4 | ссылка |
--- | --- | --- | --- | |
Intent Classification | FSC Challenge Utterance Set | Acc | 78.5 | link |
Intent Classification | SNIPS | F1 | 91.7 | link |
Intent Classification | Grabo (Nl) | Acc | 97.2 | link |
Intent Classification | CAT SLU MAP (Zn) | Acc | 78.9 | link |
Intent Classification | Google Speech Commands | Acc | 98.4 | link |
Slot Filling | SLURP | SLU-F1 | 71.9 | link |
Dialogue Act Classification | Switchboard | Acc | 67.5 | link |
Dialogue Act Classification | Jdcinal (Jp) | Acc | 67.4 | link |
Emotion Recognition | IEMOCAP | Acc | 69.4 | link |
Emotion Recognition | swbd_sentiment | Macro F1 | 61.4 | link |
Emotion Recognition | slue_voxceleb | Macro F1 | 44.0 | link |
If you want to check the results of the other recipes, please check egs2/<name_of_recipe>/asr1/RESULTS.md
.
CTC segmentation determines utterance segments within audio files. Aligned utterance segments constitute the labels of speech datasets.
As a demo, we align the start and end of utterances within the audio file ctc_align_test.wav
, using the example script utils/asr_align_wav.sh
. For preparation, set up a data directory:
cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/${base}.wav
# recipe files
echo "batchsize: 0" > ${align_dir}/align.yaml
cat << EOF > ${align_dir}/utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF
Here, utt_text
is the file containing the list of utterances. Choose a pre-trained ASR model that includes a CTC layer to find utterance segments: Предварительно обученная модель ASR
model=wsj.transformer_small.v1 mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf
../../../utils/asr_align_wav.sh
--models ${model}
--align_dir ${align_dir}
--align_config ${align_dir}/align.yaml
${wav} ${align_dir}/utt_text
Сегменты записываются в aligned_segments в виде списка имён файлов/высказываний, времени начала и окончания высказывания в секундах и показателя достоверности. Показатель достоверности — это вероятность в логарифмическом пространстве, которая указывает на то, насколько хорошо высказывание было выровнено. При необходимости удалите плохие высказывания:
min_confidence_score=-5 awk -v ms=${min_confidence_score} '{ if ($5 > ms) {print} }' ${align_dir}/aligned_segments
В демонстрационном скрипте utils/ctc_align_wav.sh используется предварительно обученная модель ASR (см. список выше для получения дополнительной информации о моделях). Рекомендуется использовать модели с RNN-кодировщиками (например, BLSTMP) для выравнивания больших аудиофайлов; вместо моделей Transformer с высоким потреблением памяти для более длинных аудиоданных. Частота дискретизации звука должна соответствовать частоте данных, использованных при обучении; при необходимости отрегулируйте с помощью sox. Полный пример рецепта находится в egs/tedlium2/align1/.
ESPnet2
Сегментация CTC определяет сегменты высказываний в аудиофайлах. Выровненные сегменты высказываний составляют метки речевых наборов данных.
В качестве демонстрации мы выравниваем начало и конец высказываний в аудиофайле ctc_align_test.wav. Это можно сделать либо непосредственно из командной строки Python, либо с помощью скрипта espnet2/bin/asr_align.py.
Из интерфейса командной строки Python:
from espnet_model_zoo.downloader import ModelDownloader d = ModelDownloader(cachedir="./modelcache") wsjmodel = d.download_and_unpack("kamo-naoyuki/wsj")
import soundfile speech, rate = soundfile.read("./test_utils/ctc_align_test.wav")
from espnet2.bin.asr_align import CTCSegmentation aligner = CTCSegmentation(**wsjmodel, fs=rate) text = """ utt1 THE SALE OF THE HOTELS utt2 IS PART OF HOLIDAY'S STRATEGY utt3 TO SELL OFF ASSETS utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT """ segments = aligner(speech, text) print(segments)
Выравнивание также работает с фрагментами текста. Для этого установите опцию gratis_blank, которая позволяет пропускать несвязанные разделы аудио без штрафа. Также можно опустить имена высказываний в начале каждой строки, установив для kaldi_style_text значение False.
aligner.set_config(gratis_blank=True, kaldi_style_text=False) text = ["SALE OF THE HOTELS", "PROPERTY MANAGEMENT"] segments = aligner(speech, text) print(segments)
Скрипт espnet2/bin/asr_align.py использует аналогичный интерфейс. Чтобы выровнять высказывания:
asr_config=<путь-к-модели>/config.yaml asr_model=<путь-к-модели>/valid.*best.pth
wav="test_utils/ctc_align_test.wav" text="test_utils/ctc_align_text.txt" cat << EOF > ${text} utt1 THE SALE OF THE HOTELS utt2 IS PART OF HOLIDAY'S STRATEGY utt3 TO SELL OFF ASSETS utt4 AND CONCENTRATE utt5 ON PROPERTY MANAGEMENT EOF
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
segments
, добавив аргумент --output segments
.Каждая строка содержит имя файла/высказывания, время начала и окончания высказывания в секундах, а также оценку достоверности; опционально также текст высказывания.
Оценка достоверности — это вероятность в логарифмическом пространстве, которая показывает, насколько хорошо было выровнено высказывание. При необходимости удалите плохие высказывания:
min_confidence_score=-7
# здесь мы предполагаем, что вывод был записан в файл `segments`
awk -v ms=${min_confidence_score} '{ if ($5 > ms) {print} }' segments
Дополнительную информацию см. в документации модуля.
Рекомендуется использовать модели с RNN-кодировщиками (например, BLSTMP) для выравнивания больших аудиофайлов, вместо моделей Transformer, которые потребляют много памяти при работе с длинными аудиоданными.
Частота дискретизации аудио должна соответствовать частоте данных, использованных при обучении; при необходимости отрегулируйте с помощью sox
.
Также мы можем использовать этот инструмент для предоставления информации о сегментации на уровне токенов, если подготовим список токенов вместо списка высказываний в файле text
. См. обсуждение по ссылке https://github.com/espnet/espnet/issues/4278#issuecomment-1100756463.
@inproceedings{watanabe2018espnet,
author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
title={{ESPnet}: End-to-End Speech Processing Toolkit},
year={2018},
booktitle={Proceedings of Interspeech},
pages={2207--2211},
doi={10.21437/Interspeech.2018-1456},
url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7654--7658},
year={2020},
organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
author = "Inaguma, Hirofumi and
Kiyono, Shun and
Duh, Kevin and
Karita, Shigeki and
Yalta, Nelson and
Hayashi, Tomoki and
Watanabe, Shinji",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
pages = "302--311",
}
@article{hayashi2021espnet2,
title={Espnet2-tts: Extending the edge of tts research},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
journal={arXiv preprint arXiv:2110.07840},
year={2021}
}
@inproceedings{li2020espnet,
title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
pages={785--792},
year={2021},
organization={IEEE},
}
@inproceedings{arora2021espnet,
title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and
*Примечание: в запросе не удалось определить основной язык текста.* **Shi Jiatong, Guo Shuai, Qian Tao, Huo Nan, Hayashi Tomoki, Wu Yuning, Xu Frank, Chang Xuankai, Li Huazhe, Wu Peter, Watanabe Shinji, Jin Qin. Muskits: an End-to-End Music Processing Toolkit for Singing Voice Synthesis.**
Muskits — это комплексный инструментарий для обработки музыки, предназначенный для синтеза поющего голоса. Авторы статьи представляют набор инструментов, который позволяет пользователям легко создавать и настраивать системы синтеза поющих голосов. Инструментарий включает в себя модули для анализа аудио, генерации спектрограмм, синтеза звука и управления параметрами голоса.
**Lu Yen-Ju, Chang Xuankai, Li Chenda, Zhang Wangyou, Cornell Samuele, Ni Zhaoheng, Masuyama Yoshiki, Yan Brian, Scheibler Robin, Wang Zhong-Qiu, Tsao Yu, Qian Yanmin, Watanabe Shinji. ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding.**
В статье представлен ESPnet-SE++, инструмент для улучшения качества речи, который может быть использован для повышения надёжности систем распознавания, перевода и понимания речи. Инструмент использует методы машинного обучения для удаления шума и искажений из аудиозаписей, что позволяет улучшить качество речи и повысить точность работы соответствующих систем.
**Gao Dongji, Shi Jiatong, Chuang Shun-Po, Garcia Leibny Paola, Lee Hung-yi, Watanabe Shinji, Khudanpur Sanjeev. EURO: ESPnet Unsupervised ASR Open-source Toolkit.**
EURO — это открытый инструментарий для автоматического распознавания речи (ASR), основанный на методах обучения без учителя. Инструментарий разработан как часть проекта ESPnet и предоставляет пользователям возможность создавать и обучать модели ASR без необходимости в размеченных данных.
**Peng Yifan, Tian Jinchuan, Yan Brian, Berrebbi Dan, Chang Xuankai, Li Xinjian, Shi Jiatong, Arora Siddhant, Chen William, Sharma Roshan и др. Reproducing Whisper-Style Training Using an Open-Source Toolkit and Publicly Available Data.**
Статья описывает попытку воспроизведения процесса обучения модели Whisper с использованием открытого инструментария и общедоступных данных. В статье представлены результаты экспериментов и анализ полученных результатов.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )