Данное приложение представляет собой пример демонстрационной программы для использования сервиса распознавания речи от Baidu Cloud. Программа может использоваться сразу после установки.
Официальная техническая документация Baidu: https://ai.baidu.com/ai-doc/SPEECH/Ek39uxgre
Консоль управления Baidu Cloud (отсюда можно получить appid, apikey и secretkey): https://console.bce.baidu.com/ai/#/ai/speech/overview/index
(Сервис распознавания речи Standard Edition в настоящее время предоставляется бесплатно с неограниченным количеством запросов. Приятного использования!) (Обновлено 24.06.2021: Standard Edition теперь требует активации платного доступа. Однако стоимость за использование слова невелика, и есть возможность оплаты по мере использования, что является хорошим выбором для небольших тестовых задач.)
Помимо Standard Edition, официально также существует Fast Edition, который начинает взимать плату после использования бесплатного лимита. Быстрый Standard Edition не считается особенно быстрым, ответы не приходят моментально; для одного минутного файла требуется около 2-3 секунд на распознавание. Для пользователей, которым важна скорость, рекомендуется использовать Fast Edition.
Программа использует открытый инструмент ffmpeg и ffprobe, последняя версия которых уже включена в проект.### Особенности программы
Сначала зарегистрируйтесь на сайте Baidu Cloud (можно войти через аккаунт Baidu). После прохождения процедуры верификации разработчика создайте приложение, которое должно иметь права доступа "Распознавание коротких аудиофрагментов". Получите свои уникальные appid, apikey и secretkey.2. Скачайте проект на свой компьютер и распакуйте его. Переименуйте файл baidu-yuyin-m4aTotxt-share.py в baidu-yuyin-m4aTotxt.py. Откройте файл baidu-yuyin-m4aTotxt.py, заполните конфигурацию своими appid
, apikey
и secretkey
и сохраните изменения.
Установка зависимостей окружения:
Данное Python-приложение было создано с использованием версии Python 3.8.1. Ваши пакетные зависимости можно установить в системный Python или virtualenv.
Для установки используйте командную строку и выполните следующий код:
pip install -r requirements.txt
Скопируйте и переместите аудиофайлы, которые вы хотите распознать (по умолчанию поддерживаются файлы m4a, но легко можно изменить код для поддержки других форматов), в папку audio
(имя папки можно настроить). Поддерживаются многоуровневые папки, так что вы можете скопировать все файлы внутрь этой папки. Результаты распознавания будут сохранены рядом с вашими аудиофайлами в соответствующих подпапках.
Используйте командную строку для запуска программы распознавания:
python baidu-yuyin-m4aTotxt.py
Во время выполнения программа будет выводить результаты распознавания, текущие действия и общую информацию о прогрессе. Избегайте изменения содержимого папки audio
во время выполнения программы до её завершения.
audio
.V1.0 Обновление журнала 20200215:
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )