1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/ko-orz-GeekPwnTTS

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

GeekPwnTTS

Это исходный код textToSpeech.

https://gitee.com/ko-orz/GeekPwnTTS/

Использование

  1. В папке util есть файлы splitWav&silentWav.js, которые позволяют разделить исходный аудиоматериал на несколько фрагментов;
  2. Файл pinYinUtil.js в папке util позволяет извлекать китайский пиньинь;
  3. Файл getPinYinCount.js в папке util может определять степень завершения архивирования слогов;
  4. Файл textToSpeech.js генерирует аудиофайлы.

Техническое описание

Обработка аудио для удаления шума

  1. Определяется, есть ли в аудиоданных непрерывные части с уровнем ниже порогового значения;
  2. Если да, то эти части просто обнуляются.

Разделение аудио на фрагменты

  1. Точки тишины используются в качестве точек разделения аудио;
  2. Аудио разделяется на несколько фрагментов.

Сглаживание аудио

  1. Находятся начало и конец фрагмента аудио;
  2. Определяется, находится ли волна около нуля, если нет, то этот период отбрасывается до тех пор, пока не будет достигнут ноль;
  3. После такой обработки волны становятся более гладкими, а периоды — естественными.

Распознавание слогов (не реализовано)

  1. Готовый аудиофрагмент сравнивается с заранее заданным;
  2. При высоком сходстве считается, что распознавание прошло успешно;
  3. Для этого требуется знание таких моделей, как HMM (скрытая марковская модель) или GMM (гауссовская смесь);
  4. Необходимо обучить модель слогов.

Архивация слогов

  1. Слоги автоматически архивируются;
  2. Архивируются не только слоги, но и целые слова, фразы, чтобы повысить распознаваемость;
  3. Здесь используется ручная архивация, которая заключается в прослушивании и сохранении через контекстное меню (O(∩_∩)O).

Предположения о звукозаписывающем оборудовании (не реализовано)

  1. Предполагается, что при записи звука напрямую с разной частотой оборудование будет лучше обрабатывать звук, так как сейчас записывающее оборудование смешивает разные частоты;
  2. Такое записывающее устройство можно сравнить с человеческим ухом, которое имеет форму улитки и способно распознавать высокие частоты внутри и низкие частоты снаружи.

Выделение слов и создание пауз

  1. Импортируются большие объёмы текстовых данных из интернета;
  2. Создаётся словарь, в который текст добавляется циклически;
  3. Слова определяются как наиболее часто встречающиеся комбинации;
  4. Менее распространённые слова могут быть усилены с помощью алгоритма TFIDF;
  5. Проект ещё не завершён, здесь используется jieba для выделения слов.

Список литературы

  1. Можно ли идентифицировать голос, прошедший через преобразователь голоса? [https://www.zhihu.com/question/38853154]
  2. Что такое резонансный пик? [https://www.zhihu.com/question/24190826/answer/32419809]
  3. Извлечение характеристик аудиосигнала — общие характеристики аудиосигнала [http://www.bubuko.com/infodetail-2055350.html]
  4. Понимание быстрого преобразования Фурье (FFT) [http://blog.jobbole.com/58246/]
  5. Самый простой способ реализации FFT [http://tieba.baidu.com/p/2513502552]
  6. Примечания к FFT [http://www.fftw.org/burrus-notes.html]
  7. Введение в алгоритм FFT [https://wenku.baidu.com/view/8bfb0bd476a20029bd642d85.html]
  8. Введение в обработку аудиовизуальных данных [http://blog.csdn.net/leixiaohua1020/article/details/50535042]
  9. Извлечение признаков для распознавания речи [https://wenku.baidu.com/view/972457e06294dd88d1d26b06.html]
  10. Сколько существует произношений китайских иероглифов? [https://www.zhihu.com/question/20213109]
  11. Таблица соответствия китайского пиньиня [http://htmfiles.englishhome.org/pinyin/bopomofo.htm#English]
  12. Анализ формата wav [http://www.cnblogs.com/yangzizhen/p/4112763.html]
  13. Десять величайших формул мира [http://www.dugoogle.com/shijiezhizui/technology-22498/]

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

This is src code of textToSpeech. Развернуть Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/ko-orz-GeekPwnTTS.git
git@api.gitlife.ru:oschina-mirror/ko-orz-GeekPwnTTS.git
oschina-mirror
ko-orz-GeekPwnTTS
ko-orz-GeekPwnTTS
master