Язык текста: китайский.
Этот проект использует Keras, TensorFlow на основе глубокой свёрточной нейронной сети и нейронной сети с долгой краткосрочной памятью, механизм внимания и CTC для реализации.
$ git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git
Или вы можете использовать кнопку «Fork», чтобы скопировать копию проекта, а затем клонировать его локально с помощью собственного SSH-ключа.
Обратите внимание, что в текущей версии необходимо загрузить и использовать наборы данных Thchs30 и ST-CMDS, а для использования других наборов данных необходимо изменить исходный код.
$ cd ASRT_SpeechRecognition
$ mkdir dataset
$ tar zxf <имя zip-файла набора данных> -C dataset/
Затем вам нужно скопировать все файлы из каталога datalist в каталог набора данных, то есть поместить их вместе с набором данных.
$ cp -rf datalist/* dataset/
В настоящее время доступны модели 24, 25 и 251.
Прежде чем запускать этот проект, установите необходимые библиотеки Python3 (см. раздел «Зависимости от версии Python»).
Чтобы начать обучение этого проекта, выполните:
$ python3 train_mspeech.py
Чтобы запустить тестирование этого проекта, выполните:
$ python3 test_mspeech.py
Перед тестированием убедитесь, что путь к файлу модели, указанный в файлах кода, существует.
$ python3 asrserver.py
Обратите внимание, что после открытия сервера API вам необходимо использовать клиентское программное обеспечение, соответствующее этому проекту ASRT, для распознавания голоса. Подробнее см. в документации Wiki Демонстрация клиента ASRT.
Если вы хотите обучить и использовать модель 251, внесите изменения в соответствующую позицию import SpeechModel
в файлах кода.
Модель распознавания речи
CNN + LSTM/GRU + CTC. Максимальная длина входного аудиосигнала составляет 16 секунд, а на выходе получается соответствующая китайская пиньинь-последовательность.
Вопросы о загрузке обученных моделей. Полную исходную программу, включающую веса обученной модели, можно получить из архивов различных версий программного обеспечения, выпущенных на странице releases на Github.
Законченное программное обеспечение, которое было выпущено, можно загрузить здесь: страница загрузки ASRT.
Языковая модель
Основана на максимальной энтропии скрытого марковского процесса и вероятностном графе. На входе — китайская пиньинь-последовательность, на выходе — соответствующий китайский текст.
О точности
В настоящее время лучшая модель может достичь примерно 80% корректности пиньиня в тестовом наборе. Однако, поскольку современные международные и отечественные команды могут достигать 98%, точность всё ещё нуждается в дальнейшем улучшении.
Библиотеки Python, которые необходимо импортировать
Наборы данных
Некоторые бесплатные китайские речевые наборы данных (на китайском языке):
Набор данных голоса китайского языка Цинхуа THCHS30 data_thchs30.tgz Скачать; test-noise.tgz Скачать; resource.tgz Скачать.
Бесплатный корпус китайского мандарина ST ST-CMDS-20170001_1-OS.tar.gz Скачать.
Открытый набор данных AIShell-1 data_aishell.tgz Скачать Примечание: распакуйте этот набор данных.
$ tar xzf data_aishell.tgz
$ cd data_aishell/wav
$ for tar in *.tar.gz; do tar xvf $tar; done
Китайский корпус Primewords 1 primewords_md_2018_set1.tar.gz Скачать
aidatatang_200zh aidatatang_200zh.tgz Скачать
MagicData train_set.tar.gz Скачать; dev_set.tar.gz Скачать; test_set.tar.gz Скачать; metadata.tar.gz Скачать.
Особая благодарность! Спасибо за общедоступный набор речевых данных предшественников. Если предоставленную ссылку на набор данных нельзя открыть и загрузить, нажмите эту ссылку OpenSLR.
Лицензия
GPL v3.0 © nl8590687 Автор: ailemon.
Участники @zw76859420, @madeirak, @ZJUGuoShuai, @williamchenwl, @nl8590687 (владелец репозитория).
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )