GeekPwnTTS

Это исходный код textToSpeech.

https://gitee.com/ko-orz/GeekPwnTTS/

Использование

В папке util есть файлы splitWav&silentWav.js, которые позволяют разделить исходный аудиоматериал на несколько фрагментов;
Файл pinYinUtil.js в папке util позволяет извлекать китайский пиньинь;
Файл getPinYinCount.js в папке util может определять степень завершения архивирования слогов;
Файл textToSpeech.js генерирует аудиофайлы.

Техническое описание

Обработка аудио для удаления шума

Определяется, есть ли в аудиоданных непрерывные части с уровнем ниже порогового значения;
Если да, то эти части просто обнуляются.

Разделение аудио на фрагменты

Точки тишины используются в качестве точек разделения аудио;
Аудио разделяется на несколько фрагментов.

Сглаживание аудио

Находятся начало и конец фрагмента аудио;
Определяется, находится ли волна около нуля, если нет, то этот период отбрасывается до тех пор, пока не будет достигнут ноль;
После такой обработки волны становятся более гладкими, а периоды — естественными.

Распознавание слогов (не реализовано)

Готовый аудиофрагмент сравнивается с заранее заданным;
При высоком сходстве считается, что распознавание прошло успешно;
Для этого требуется знание таких моделей, как HMM (скрытая марковская модель) или GMM (гауссовская смесь);
Необходимо обучить модель слогов.

Архивация слогов

Слоги автоматически архивируются;
Архивируются не только слоги, но и целые слова, фразы, чтобы повысить распознаваемость;
Здесь используется ручная архивация, которая заключается в прослушивании и сохранении через контекстное меню (O(∩_∩)O).

Предположения о звукозаписывающем оборудовании (не реализовано)

Предполагается, что при записи звука напрямую с разной частотой оборудование будет лучше обрабатывать звук, так как сейчас записывающее оборудование смешивает разные частоты;
Такое записывающее устройство можно сравнить с человеческим ухом, которое имеет форму улитки и способно распознавать высокие частоты внутри и низкие частоты снаружи.

Выделение слов и создание пауз

Импортируются большие объёмы текстовых данных из интернета;
Создаётся словарь, в который текст добавляется циклически;
Слова определяются как наиболее часто встречающиеся комбинации;
Менее распространённые слова могут быть усилены с помощью алгоритма TFIDF;
Проект ещё не завершён, здесь используется jieba для выделения слов.

Список литературы

Можно ли идентифицировать голос, прошедший через преобразователь голоса? [https://www.zhihu.com/question/38853154]
Что такое резонансный пик? [https://www.zhihu.com/question/24190826/answer/32419809]
Извлечение характеристик аудиосигнала — общие характеристики аудиосигнала [http://www.bubuko.com/infodetail-2055350.html]
Понимание быстрого преобразования Фурье (FFT) [http://blog.jobbole.com/58246/]
Самый простой способ реализации FFT [http://tieba.baidu.com/p/2513502552]
Примечания к FFT [http://www.fftw.org/burrus-notes.html]
Введение в алгоритм FFT [https://wenku.baidu.com/view/8bfb0bd476a20029bd642d85.html]
Введение в обработку аудиовизуальных данных [http://blog.csdn.net/leixiaohua1020/article/details/50535042]
Извлечение признаков для распознавания речи [https://wenku.baidu.com/view/972457e06294dd88d1d26b06.html]
Сколько существует произношений китайских иероглифов? [https://www.zhihu.com/question/20213109]
Таблица соответствия китайского пиньиня [http://htmfiles.englishhome.org/pinyin/bopomofo.htm#English]
Анализ формата wav [http://www.cnblogs.com/yangzizhen/p/4112763.html]
Десять величайших формул мира [http://www.dugoogle.com/shijiezhizui/technology-22498/]

OSCHINA-MIRROR/ko-orz-GeekPwnTTS

GeekPwnTTS

Использование

Техническое описание

Обработка аудио для удаления шума

Разделение аудио на фрагменты

Сглаживание аудио

Распознавание слогов (не реализовано)

Архивация слогов

Предположения о звукозаписывающем оборудовании (не реализовано)

Выделение слов и создание пауз

Список литературы

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/ko-orz-GeekPwnTTS .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

GeekPwnTTS

Использование

Техническое описание

Обработка аудио для удаления шума

Разделение аудио на фрагменты

Сглаживание аудио

Распознавание слогов (не реализовано)

Архивация слогов

Предположения о звукозаписывающем оборудовании (не реализовано)

Выделение слов и создание пауз

Список литературы

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/ko-orz-GeekPwnTTS