chatopera-ASRT_SpeechRecognition: Система распознавания китайской речи на основе глубокого обучения.

Система распознавания речи на основе глубокого обучения

Язык текста: китайский.

Введение

Этот проект использует Keras, TensorFlow на основе глубокой свёрточной нейронной сети и нейронной сети с долгой краткосрочной памятью, механизм внимания и CTC для реализации.

Шаги

Сначала клонируйте проект на свой компьютер через Git, а затем загрузите наборы данных, необходимые для обучения этого проекта. Ссылки для скачивания см. в разделе «Наборы данных» в конце документа.

$ git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git

Или вы можете использовать кнопку «Fork», чтобы скопировать копию проекта, а затем клонировать его локально с помощью собственного SSH-ключа.

После клонирования репозитория через git перейдите в корневой каталог проекта; создайте подкаталог dataset/ (вы можете использовать программную ссылку вместо этого), а затем извлеките загруженные наборы данных непосредственно в него.

Обратите внимание, что в текущей версии необходимо загрузить и использовать наборы данных Thchs30 и ST-CMDS, а для использования других наборов данных необходимо изменить исходный код.

$ cd ASRT_SpeechRecognition

$ mkdir dataset

$ tar zxf <имя zip-файла набора данных> -C dataset/

Затем вам нужно скопировать все файлы из каталога datalist в каталог набора данных, то есть поместить их вместе с набором данных.

$ cp -rf datalist/* dataset/

В настоящее время доступны модели 24, 25 и 251.

Прежде чем запускать этот проект, установите необходимые библиотеки Python3 (см. раздел «Зависимости от версии Python»).
Чтобы начать обучение этого проекта, выполните:

$ python3 train_mspeech.py

Чтобы запустить тестирование этого проекта, выполните:

$ python3 test_mspeech.py

Перед тестированием убедитесь, что путь к файлу модели, указанный в файлах кода, существует.

Для запуска сервера API ASRT выполните:

$ python3 asrserver.py

Обратите внимание, что после открытия сервера API вам необходимо использовать клиентское программное обеспечение, соответствующее этому проекту ASRT, для распознавания голоса. Подробнее см. в документации Wiki Демонстрация клиента ASRT.

Если вы хотите обучить и использовать модель 251, внесите изменения в соответствующую позицию import SpeechModel в файлах кода.

Если возникнут проблемы... Модель

Модель распознавания речи

CNN + LSTM/GRU + CTC. Максимальная длина входного аудиосигнала составляет 16 секунд, а на выходе получается соответствующая китайская пиньинь-последовательность.

Вопросы о загрузке обученных моделей. Полную исходную программу, включающую веса обученной модели, можно получить из архивов различных версий программного обеспечения, выпущенных на странице releases на Github.

Законченное программное обеспечение, которое было выпущено, можно загрузить здесь: страница загрузки ASRT.

Языковая модель

Основана на максимальной энтропии скрытого марковского процесса и вероятностном графе. На входе — китайская пиньинь-последовательность, на выходе — соответствующий китайский текст.

О точности

В настоящее время лучшая модель может достичь примерно 80% корректности пиньиня в тестовом наборе. Однако, поскольку современные международные и отечественные команды могут достигать 98%, точность всё ещё нуждается в дальнейшем улучшении.

Библиотеки Python, которые необходимо импортировать

python_speech_features;
TensorFlow (1.13+);
Keras (2.3+);
Numpy;
wave;
matplotlib;
math;
Scipy;
h5py;
http;
urllib. Подробная информация о зависимой среде.

Наборы данных

Некоторые бесплатные китайские речевые наборы данных (на китайском языке):

Набор данных голоса китайского языка Цинхуа THCHS30 data_thchs30.tgz Скачать; test-noise.tgz Скачать; resource.tgz Скачать.
Бесплатный корпус китайского мандарина ST ST-CMDS-20170001_1-OS.tar.gz Скачать.
Открытый набор данных AIShell-1 data_aishell.tgz Скачать Примечание: распакуйте этот набор данных.
```
$ tar xzf data_aishell.tgz
$ cd data_aishell/wav
$ for tar in *.tar.gz;  do tar xvf $tar; done
```
Китайский корпус Primewords 1 primewords_md_2018_set1.tar.gz Скачать
aidatatang_200zh aidatatang_200zh.tgz Скачать
MagicData train_set.tar.gz Скачать; dev_set.tar.gz Скачать; test_set.tar.gz Скачать; metadata.tar.gz Скачать.

Особая благодарность! Спасибо за общедоступный набор речевых данных предшественников. Если предоставленную ссылку на набор данных нельзя открыть и загрузить, нажмите эту ссылку OpenSLR.

Лицензия

Участники @zw76859420, @madeirak, @ZJUGuoShuai, @williamchenwl, @nl8590687 (владелец репозитория).

Пожертвовать.

OSCHINA-MIRROR/chatopera-ASRT_SpeechRecognition

Система распознавания речи на основе глубокого обучения

Введение

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/chatopera-ASRT_SpeechRecognition .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Система распознавания речи на основе глубокого обучения

Введение

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/chatopera-ASRT_SpeechRecognition