1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/yzd_org-speechToText

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Приложение для преобразования речи в текст в реальном времени

Данный проект представляет собой приложение для преобразования речи в текст с точностью распознавания от 80 до 90%. Проект полностью открыт и поддерживает автономное развёртывание.

Содержание проекта:

  • Речевая, текстовая и видеосвязь в реальном времени;
  • Преобразование речи в текст на основе открытого искусственного интеллекта Lemon;
  • Преобразование речи в текст на основе платформы Xunfei;
  • Распознавание речи в реальном времени на основе Vosk.

Lemon — развёртывание и запуск

  • Конфигурация IDEA для запуска Tomcat;
  • Порт по умолчанию: 8080;
  • Адрес доступа для записи звука: http://localhost:8080/ws/luyin3.html;
  • Файлы аудиозаписей будут храниться в каталоге проекта при преобразовании речи в текст в режиме реального времени;
  • Результаты преобразования выводятся в консоль в режиме реального времени;
  • Результаты отображаются на странице в режиме реального времени;
  • Сервер преобразования речи в текст ARST вызывается в режиме реального времени;
  • Реализация на Java.

Vosk — развёртывание и запуск

Реализация преобразования речи в текст в Python на основе Vosk, реализация на Java имеет проблему утечки памяти, которая пока не решена. Установка Vosk: python -m pip install -U vosk. Загрузка модели Vosk: https://alphacephei.com/vosk/models. Необходимо загрузить соответствующую модель обучения и распаковать её в папку src/main/resources/model.

  • Код для преобразования речи в текст в серверной части в реальном времени расположение;
  • Код для преобразования речи в текст во фронтенде в реальном времени расположение. Используются модифицированные файлы JavaScript, необходимо использовать файлы JavaScript из этого проекта;
  • Код для преобразования микрофона в реальном времени (тестирование) расположение;
  • Код для преобразования WAV-файла в реальном времени расположение;
  • Код для загрузки файла и преобразования расположение;
  • Демо-код для загрузки файлов с помощью Flask расположение.

Преобразование

  • Фронтенд для записи звука AI Lemon, можно изменить адрес подключения websocket и частоту отправки аудиопотока в соответствии с требованиями;
  • Бэкенд для приёма аудиозаписи AI Lemon, AI Lemon реализует приём аудиопотока и преобразование в реальном времени;
  • Преобразование PCM в WAV Python;
  • Пример кода для websocket Python;
  • Сервис преобразования AI Lemon Python;
  • Преобразование websocket AI Lemon Python.

Ссылки

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

На основе WebSocket реализована **мгновенная коммуникация в браузере между пользователями с помощью текста, видео и аудио**, а также **преобразование речи в текст в реальном времени**. Развернуть Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/yzd_org-speechToText.git
git@api.gitlife.ru:oschina-mirror/yzd_org-speechToText.git
oschina-mirror
yzd_org-speechToText
yzd_org-speechToText
master