Приложение для преобразования речи в текст в реальном времени

Данный проект представляет собой приложение для преобразования речи в текст с точностью распознавания от 80 до 90%. Проект полностью открыт и поддерживает автономное развёртывание.

Содержание проекта:

Речевая, текстовая и видеосвязь в реальном времени;
Преобразование речи в текст на основе открытого искусственного интеллекта Lemon;
Преобразование речи в текст на основе платформы Xunfei;
Распознавание речи в реальном времени на основе Vosk.

Lemon — развёртывание и запуск

Конфигурация IDEA для запуска Tomcat;
Порт по умолчанию: 8080;
Адрес доступа для записи звука: http://localhost:8080/ws/luyin3.html;
Файлы аудиозаписей будут храниться в каталоге проекта при преобразовании речи в текст в режиме реального времени;
Результаты преобразования выводятся в консоль в режиме реального времени;
Результаты отображаются на странице в режиме реального времени;
Сервер преобразования речи в текст ARST вызывается в режиме реального времени;
Реализация на Java.

Vosk — развёртывание и запуск

Реализация преобразования речи в текст в Python на основе Vosk, реализация на Java имеет проблему утечки памяти, которая пока не решена. Установка Vosk: python -m pip install -U vosk. Загрузка модели Vosk: https://alphacephei.com/vosk/models. Необходимо загрузить соответствующую модель обучения и распаковать её в папку src/main/resources/model.

Код для преобразования речи в текст в серверной части в реальном времени расположение;
Код для преобразования речи в текст во фронтенде в реальном времени расположение. Используются модифицированные файлы JavaScript, необходимо использовать файлы JavaScript из этого проекта;
Код для преобразования микрофона в реальном времени (тестирование) расположение;
Код для преобразования WAV-файла в реальном времени расположение;
Код для загрузки файла и преобразования расположение;
Демо-код для загрузки файлов с помощью Flask расположение.

Преобразование

Фронтенд для записи звука AI Lemon, можно изменить адрес подключения websocket и частоту отправки аудиопотока в соответствии с требованиями;
Бэкенд для приёма аудиозаписи AI Lemon, AI Lemon реализует приём аудиопотока и преобразование в реальном времени;
Преобразование PCM в WAV Python;
Пример кода для websocket Python;
Сервис преобразования AI Lemon Python;
Преобразование websocket AI Lemon Python.

OSCHINA-MIRROR/yzd_org-speechToText

Приложение для преобразования речи в текст в реальном времени

Lemon — развёртывание и запуск

Vosk — развёртывание и запуск

Преобразование

Ссылки

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/yzd_org-speechToText .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Приложение для преобразования речи в текст в реальном времени

Lemon — развёртывание и запуск

Vosk — развёртывание и запуск

Преобразование

Ссылки

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/yzd_org-speechToText