1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/xueshanlinghu-baidu-yuyin-m4aTotxt

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Описание проекта

Данное приложение представляет собой пример демонстрационной программы для использования сервиса распознавания речи от Baidu Cloud. Программа может использоваться сразу после установки.

Официальная техническая документация Baidu: https://ai.baidu.com/ai-doc/SPEECH/Ek39uxgre

Консоль управления Baidu Cloud (отсюда можно получить appid, apikey и secretkey): https://console.bce.baidu.com/ai/#/ai/speech/overview/index

(Сервис распознавания речи Standard Edition в настоящее время предоставляется бесплатно с неограниченным количеством запросов. Приятного использования!) (Обновлено 24.06.2021: Standard Edition теперь требует активации платного доступа. Однако стоимость за использование слова невелика, и есть возможность оплаты по мере использования, что является хорошим выбором для небольших тестовых задач.)

Помимо Standard Edition, официально также существует Fast Edition, который начинает взимать плату после использования бесплатного лимита. Быстрый Standard Edition не считается особенно быстрым, ответы не приходят моментально; для одного минутного файла требуется около 2-3 секунд на распознавание. Для пользователей, которым важна скорость, рекомендуется использовать Fast Edition.

Программа использует открытый инструмент ffmpeg и ffprobe, последняя версия которых уже включена в проект.### Особенности программы

  1. По умолчанию поддерживает только распознавание аудиофайлов m4a, записанных на устройствах Apple. Результат распознавания записывается в одном txt-файле.
  2. Легко расширяемое форматирование. Предположительно, добавление нескольких строк кода позволит распознавать mp3, wav, amr и другие аудиофайлы (в коде уже приведено описание для расширения).
  3. Поддерживает массовое распознавание нескольких файлов, включая файлы в подпапках.
  4. Полностью поддерживает кириллические названия файлов и папок.
  5. Отображает результат распознавания, общую прогрессию и общее время выполнения.
  6. Поддерживает распознавание длинных аудиофайлов (какими бы длинными они ни были). Программа автоматически разбивает аудиофайл на части по 60 секунд каждая для распознавания (так как Baidu Cloud ограничивает длительность одного запроса до 60 секунд).
  7. Поддерживает настройку QPS (количества запросов в секунду) для предотвращения слишком быстрого выполнения запросов.
  8. Есть ещё множество других возможностей, ждущих своего открытия!

Как использовать

  1. Сначала зарегистрируйтесь на сайте Baidu Cloud (можно войти через аккаунт Baidu). После прохождения процедуры верификации разработчика создайте приложение, которое должно иметь права доступа "Распознавание коротких аудиофрагментов". Получите свои уникальные appid, apikey и secretkey.2. Скачайте проект на свой компьютер и распакуйте его. Переименуйте файл baidu-yuyin-m4aTotxt-share.py в baidu-yuyin-m4aTotxt.py. Откройте файл baidu-yuyin-m4aTotxt.py, заполните конфигурацию своими appid, apikey и secretkey и сохраните изменения.

  2. Установка зависимостей окружения:

    Данное Python-приложение было создано с использованием версии Python 3.8.1. Ваши пакетные зависимости можно установить в системный Python или virtualenv.

    Для установки используйте командную строку и выполните следующий код:

    pip install -r requirements.txt
  3. Скопируйте и переместите аудиофайлы, которые вы хотите распознать (по умолчанию поддерживаются файлы m4a, но легко можно изменить код для поддержки других форматов), в папку audio (имя папки можно настроить). Поддерживаются многоуровневые папки, так что вы можете скопировать все файлы внутрь этой папки. Результаты распознавания будут сохранены рядом с вашими аудиофайлами в соответствующих подпапках.

  4. Используйте командную строку для запуска программы распознавания:

    python baidu-yuyin-m4aTotxt.py

    Во время выполнения программа будет выводить результаты распознавания, текущие действия и общую информацию о прогрессе. Избегайте изменения содержимого папки audio во время выполнения программы до её завершения.

Обновление журналаV1.1 Обновление журнала 20200215:

  1. Добавлены недостающие аудиофайлы в папку audio.

V1.0 Обновление журнала 20200215:

  1. Первый выпуск версии, который был протестирован несколько раз и оптимизирован для вывода информации в консоль.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Данная программа представляет собой демонстрационную версию стандартной версии системы распознавания речи для интеллектуального облачного сервиса Baidu. Она готова к непосредственному использованию. Развернуть Свернуть
MIT
Отмена

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/xueshanlinghu-baidu-yuyin-m4aTotxt.git
git@api.gitlife.ru:oschina-mirror/xueshanlinghu-baidu-yuyin-m4aTotxt.git
oschina-mirror
xueshanlinghu-baidu-yuyin-m4aTotxt
xueshanlinghu-baidu-yuyin-m4aTotxt
master