1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/mirrors-lingvo

Клонировать/Скачать
PUBLICATIONS.md 26 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 30.11.2024 10:28 a6e591e

П. Морено, Э. Вайнштейн и К. Рао «Многоязычное распознавание речи с помощью единой сквозной модели», в Proc. Международной конференции IEEE по акустике, обработке речи и сигналов (ICASSP), 2018.

[pdf]

Б. Ли, Т. Н. Сайнат, К. Сим, М. Бакчиани, Э. Вайнштейн, П. Нгуен, З. Чен, Ю. Ву и К. Рао, «Распознавание речи на нескольких диалектах с помощью одной модели последовательность-последовательность», в Proc. Международной конференции IEEE по акустике, обработке речи и сигналов (ICASSP), 2018.

[pdf]

Т. Н. Сайнат, П. Прабхавалкар, С. Кумар, С. Ли, А. Каннан, Д. Рыбач, В. Шоголь, П. Нгуен, Б. Ли, Ю. Ву, З. Чен и К. С. Чиу, «Нужна ли лексическая база? Оценка значения лексической базы произношения в моделях „от конца до конца“», в Proc. Международной конференции IEEE по акустике, обработке речи и сигналов (ICASSP), 2018.

[pdf]

Д. Лоусон, К. С. Чиу, Г. Такер, К. Раффель, К. Сверски и Н. Джейтли, «Изучение жёстких выравниваний с вариационным выводом», в Proc. Международной конференции IEEE по акустике, обработке речи и сигналов (ICASSP), 2018.

[pdf]

А. Каннан, Ю. Ву, П. Нгуен, Т. Н. Сайнат, З. Чен и Р. Прабхавалкар, «Анализ включения внешней языковой модели в модель последовательность-последовательность», в Proc. Международной конференции IEEE по акустике, обработке речи и сигналов (ICASSP), 2018.

[pdf]

Р. Прабхавалкар, Т. Н. Сайнат, Ю. Ву, П. Нгуен, З. Чен, К. С. Чиу и А. Каннан, «Обучение с минимальной частотой ошибок для моделей внимания последовательность-последовательность», в Proc. Международной конференции IEEE по акустике, обработке речи и сигналов (ICASSP), 2018.

[pdf]

Т. Н. Сайнат, К. С. Чиу, Р. Прабхавалкар, А. Каннан, Ю. Ву, П. Нгуен и З. Ч., «Улучшение производительности онлайн-моделей нейронного преобразователя», в Proc. Международной конференции IEEE по акустике, обработке речи и сигналов (ICASSP), 2018.

[pdf]

К. С. Чиу и К. Раффел, «Монотонное поблочное внимание», в Международной конференции по обучению представлениям (ICLR), 2018.

[pdf]

И. Уильямс,

Перевод выполнен с учётом оригинального форматирования текста. Контекстное распознавание речи в системах нейронных сетей «конец-в-конец» с использованием поиска по лучу

A. Kannan, P. Aleksic, D. Rybach и T. N. S. TN.

В статье «Контекстное распознавание речи в системах нейронных сетей „конец-в-конец“ с использованием поиска по лучу» авторы рассматривают методы контекстного распознавания речи в системах, основанных на нейронных сетях. Они предлагают использовать поиск по лучу для улучшения точности распознавания речи.

Распознавание речи для медицинских разговоров

C. C. Chiu, A. Tripathi, K. Chou, C. Co, N. Jaitly, D. Jaunzeikare, A. Kannan, P. Nguyen, H. Sak, A. Sankar, J. Tansuwan, N. Wan, Y. Wu и X. Zhang.

Статья посвящена методам распознавания речи, которые могут быть использованы в медицинских разговорах. Авторы предлагают подходы к улучшению точности и надёжности распознавания речи в таких условиях.

Сжатие моделей «конец-в-конец»

R. Pang, T. N. Sainath, R. Prabhavalkar, S. Gupta, Y. Wu, S. Zhang и C. C. Chiu.

Авторы статьи исследуют методы сжатия моделей «конец-в-конец», используемых для распознавания речи. Они анализируют различные подходы к уменьшению размера моделей без существенного ухудшения их производительности.

Сравнение методов интеграции языковой модели в декодер-кодер для распознавания речи

S. Toshniwal, A. Kannan, C. C. Chiu, Y. Wu, T. N. Sainath и K. Livescu.

Эта статья посвящена сравнению различных методов интеграции языковых моделей в системы распознавания речи на основе декодера-кодера. Авторы анализируют преимущества и недостатки каждого подхода.

Глубокий контекст: контекстное распознавание речи «конец-в-конец»

G. Pundak, T. N. Sainath, R. Prabhavalkar, A. Kannan и D. Zhao.

В этой статье рассматривается метод глубокого контекста для контекстного распознавания речи «конец-в-конец». Авторы предлагают подход, который учитывает контекстную информацию для повышения точности распознавания.

Всё, что вам нужно — это байты: многоязычное распознавание и синтез речи «конец-в-конец» на основе байтов

B. Li, Y. Zhang, T. N. Sainath, Y. Wu и W. Chan.

Авторы этой статьи предлагают метод многоязычного распознавания и синтеза речи «конец-в-конец» на основе использования байтов. Этот подход позволяет упростить процесс распознавания и синтеза для разных языков.

Модель исправления орфографии для распознавания речи «конец-в-конец»

J. Guo, T. N. Sainath и R. J. Weiss.

В данной статье представлена модель исправления орфографических ошибок для систем распознавания речи «конец-в-конец». Модель помогает улучшить точность распознавания за счёт коррекции возможных ошибок в произнесённых словах.

Контекстуальное распознавание речи с трудными отрицательными обучающими примерами

U. Alon, G. Pundak и T. N. Sainath.

Авторы исследуют проблему контекстуального распознавания речи при наличии трудных отрицательных обучающих примеров. Они предлагают методы для улучшения производительности распознавания в таких случаях.

Невоспринимаемые, устойчивые и целевые состязательные примеры для автоматического распознавания речи

Y. Qin, N. Carlini, I. Goodfellow, G. Cottrell и C. Raffel.

Данная статья рассматривает методы создания состязательных примеров для систем автоматического распознавания речи. Авторы исследуют способы создания примеров, которые трудно обнаружить и которые могут повлиять на работу системы. D. S. Park, W. Chan, Y. Zhang, C. Chiu, B. Zoph, E. D. Cubuk, Q. V. Le «SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition»

В статье «SpecAugment: a simple data augmentation method for automatic speech recognition» авторы предлагают метод SpecAugment для улучшения качества автоматического распознавания речи. Метод основан на добавлении небольших изменений в аудиоданные во время обучения модели. Авторы утверждают, что это позволяет модели лучше адаптироваться к различным условиям и повысить точность распознавания.

B. Li, T. N. Sainath, R. Pang, Z. Wu «Semi-supervised training for end-to-end models via weak distillation»

Статья посвящена методу полу-контролируемого обучения для моделей «конец-в-конец» с использованием слабой дистилляции. Авторы предлагают использовать информацию из немаркированных данных для улучшения производительности модели. Они показывают, что этот подход может улучшить качество распознавания речи без необходимости в большом количестве аннотированных данных.

S.-Y. Chang, R. Prabhavalkar, Y. He, T. N. Sainath, G. Simko «Joint endpointing and decoding with end-to-end models»

Авторы статьи исследуют метод совместного определения конечной точки и декодирования с помощью моделей «конец-в-конец». Они предлагают новый подход, который объединяет эти два процесса в одну модель. Это позволяет улучшить точность распознавания и уменьшить вычислительные затраты.

J. Heymann, K. C. Sim, B. Li «Improving CTC using stimulated learning for sequence modeling»

Эта статья посвящена улучшению метода CTC (Connectionist Temporal Classification) с использованием стимулированного обучения для моделирования последовательностей. Авторы предлагают модифицировать алгоритм CTC, чтобы он учитывал контекст и последовательность символов при распознавании речи.

A. Bruguier, R. Prabhavalkar, G. Pundak, T. N. Sainath «Phoebe: Pronunciation-aware contextualization for end-to-end speech recognition»

В этой статье представлен метод Phoebe, который учитывает произношение при контекстуализации для распознавания речи «конец-в-конец». Авторы показывают, как использование информации о произношении может улучшить точность распознавания слов, особенно в сложных условиях.

Y. He, T. N. Sainath, R. Prabhavalkar, I. McGraw, R. Alvarez, D. Zhao, D. Rybach, A. Kannan, Y. Wu, R. Pang, Q. Liang, D. Bhatia, Y. Shangguan, B. Li, G. Pundak, K. C. Sim, T. Bagby, S.-Y. Chang, K. Rao, A. Gruenstein «Streaming end-to-end speech recognition for mobile devices»

Данная статья описывает метод потокового распознавания речи «конец-в-конец», разработанный для мобильных устройств. Авторы представляют архитектуру модели, которая обеспечивает высокую точность и низкую задержку при обработке речи в реальном времени.

K. Irie, R. Prabhavalkar, A. Kannan, A. Bruguier, D. Rybach, P. Nguyen «On the choice of modeling unit for sequence-to-sequence speech recognition»

В данной статье рассматривается вопрос выбора единицы моделирования для распознавания речи с использованием подхода «последовательность-последовательность». Авторы анализируют различные варианты единиц моделирования и их влияние на производительность модели.

C. Peyser, H. Zhang, T. N. Sainath, Z. Wu «Improving Performance of End-to-End ASR on Numeric Sequences»

Эта статья исследует методы улучшения производительности автоматического распознавания речи (ASR) для числовых последовательностей. Авторы рассматривают различные подходы и предлагают методы, которые могут повысить точность распознавания чисел в речи.

D. Zhao, T. N. Sainath, R. Prabhavalkar «Shallow fusion of acoustic and language models for speech recognition»

В этой статье предлагается метод поверхностного объединения акустической и языковой моделей для распознавания речи. Авторы описывают, как объединить эти две модели для повышения точности распознавания и уменьшения вычислительной сложности. Д. Чжао, Т. Н. Сайнат, Д. Рыбач, Д. Бхатия, Б. Ли и Р. Панг «Shallow-fusion end-to-end contextual biasing», в «Proc. Interspeech», 2019.

Т. Н. Сайнат, Р. Панг, Д. Рыбач, Ю. Хе, Р. Прабхавалкар, В. Ли, М. Висонтэй, К. Лян, Т. Строхман, Ю. Ву, И. Макгроу и Ч.-Ч. Чиу «Two-pass end-to-end speech recognition», в «Proc. Interspeech», 2019.

Ч.-Ч. Чиу, У. Хань, Ю. Чжан, Р. Панг, С. Кищенко, П. Нгуен, А. Нараянан, Х. Ляо, С. Чжан, А. Каннан, Р. Прабхавалкар, З. Чен, Т. Сайнат и Ю. Ву «A comparison of end-to-end models for long-form speech recognition», в «Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)», 2019.

А. Нараянан, Р. Прабхавалкар, Ч.-Ч. Чиу, Д. Рыбач, Т. Сайнат и Т. Строхман «Recognizing long-form speech using streaming end-to-end models», в «Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)», 2019.

Т. Н. Сайнат, Р. Панг, Р. Вайс, Ю. Хе, Ч.-Ч. Чиу и Т. Строхман «An attention-based joint acoustic and text on-device end-to-end model», в «Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)», 2020.

З. Лу, Л. Цао, Ю. Чжан, Ч.-Ч. Чиу и Дж. Фан «Speech sentiment analysis via pre-trained features from end-to-end asr models», в «Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)», 2020.

Д. Парк, Ю. Чжан, Ч.-Ч. Чиу, Ю. Чен, Б. Ли, У. Чан, К. Ле и Ю. Ву «Specaugment on large scale datasets», в «Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)», 2020.

Т. Сайнат, Ю. Хе, Б. Ли, А. Нараянан, Р. Панг, А. Бругиер, С. Чан, У. Ли, Р. Альварес, З. Чен, Ч.-Ч. Чиу, Д. Гарсия, А. Груэнштейн, К. Ху, М. Джин, А. Каннан, К. Лианг, И. Макгроу, К. Пейсер, Р. Прабхавалкар, Г. Пундак, Д. Рыбач, Ю. Шангуань, Ю. Шет, Т. Строхман, М. Висонтэй, Ю. Ву, Ю. Чжан и Д. Чжао «A streaming on-device end-to-end model surpassing server-side conventional model quality and latency», в «Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)», 2020. A. Gulati, J. Qin, C.-C. Chiu, N. Parmar, Y. Zhang, J. Yu, W. Han, S. Wang, Z. Zhang, Y. Wu, R. Pang. Conformer: Convolution-augmented transformer for speech recognition. In Proc. Interspeech, 2020.

W. Han, Z. Zhang, Y. Zhang, J. Yu, C.-C. Chiu, J. Qin, A. Gulati, R. Pang, Y. Wu. Contextnet: Improving convolutional neural networks for automatic speech recognition with global context. In Proc. Interspeech, 2020.

W. Li, J. Qin, C.-C. Chiu, R. Pang, Y. He. Parallel rescoring with transformer for streaming on-device speech recognition. In Proc. Interspeech, 2020.

D. S. Park, Y. Zhang, Y. Jia, W. Han, C.-C. Chiu, B. Li, Y. Wu, Q. V. Le. Improved noisy student training for automatic speech recognition. In Proc. Interspeech, 2020.

Y. Zhang, J. Qin, D. S. Park, W. Han, C.-C. Chiu, R. Pang, Q. V. Le, Y. Wu. Pushing the limits of semi-supervised learning for automatic speech recognition. NeurIPS 2020 Workshop on Self-Supervised Learning for Speech and Audio Processing, 2020.

C.-C. Chiu, A. Narayanan, W. Han, R. Prabhavalkar, Y. Zhang, N. Jaitly, R. Pang, T. N. Sainath, P. Nguyen, L. Cao, Y. Wu. RNN-T models fail to generalize to out-of-domain audio: Causes and solutions. In Proc. IEEE Spoken Language Technology Workshop (SLT), 2020.

S. Panchapagesan, D. S. Park, C.-C. Chiu, Y. Shangguan, Q. Liang, A. Gruenstein. Efficient knowledge distillation for RNN-transducer models. In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2021.

A. Narayanan, T. N. Sainath, R. Pang, J. Yu, C.-C. Chiu, R. Prabhavalkar, E. Variani, T. Strohman. Cascaded encoders for unifying streaming and non-streaming ASR. In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2021.

B. Li, A. Gulati, J. Yu, T. N. Sainath, C.-C. Chiu, A. Narayanan, S.-Y. Chang, R. Pang, Y. He, J. Qin, W. Han. Better, faster, stronger: Scaling up end-to-end speech recognition. In Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), 2021. Каннана А., Чен К., Джаунзеикаре Д., Раджкомар А. «Semi-Supervised Learning for Information Extraction from Dialogue».

В статье описывается метод полу-контролируемого обучения для извлечения информации из диалога. Авторы предлагают использовать этот метод для улучшения качества распознавания речи и понимания естественного языка.

Статья была представлена на конференции Interspeech в 2018 году. CaLcs: Continuously Approximating Longest Common Subsequence for Sequence Level Optimization

S. Yavuz, C. C. Chiu, P. Nguyen и Y. Wu. В Proc. Conference on Empirical Methods in Natural Language Processing (EMNLP), 2018.

From Audio to Semantics: Approaches to End-to-End Spoken Language Understanding

P. Haghani, A. Narayanan, M. Bacchiani, G. Chuang, N. Gaur, P. Moreno, R. Prabhavalkar, Z. Qu и A. Waters. В IEEE Spoken Language Technology Workshop (SLT), 2018.

Gmail Smart Compose: Real-Time Assisted Writing

M. X. Chen, B. N. Lee, G. Bansal, Y. Cao, S. Zhang, J. Lu, J. Tsay, Y. Wang, A. M. Dai, Z. Chen, T. Sohn и Y. Wu. В Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, Association for Computing Machinery, 2019.

Speech Synthesis

Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions

J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry-Ryan, R. A. Saurous, Y. Agiomyrgiannakis и Y. Wu. В Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2018.

On Using Backpropagation for Speech Texture Generation and Voice Conversion

J. Chorowski, R. J. Weiss, R. A. Saurous и S. Bengio. В Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2018.

Transfer Learning from Speaker Verification to Multispeaker Text-to-Speech Synthesis

Y. Jia, Y. Zhang, R. J. Weiss, Q. Wang, J. Shen, F. Ren, Z. Chen, P. Nguyen, R. Pang, I. Lopez-Moreno и Y. Wu. В Advances in Neural Information Processing Systems, 2018.

Hierarchical Disentanglement for Controllable Speech Synthesis

W. N. Hsu, Y. Zhang и J. Glass. В International Conference on Machine Learning, 2019. Ю. Чжан, Р. Дж. Вайс, Х. Дзен, Ю. Ву, Ю. Ван, Ю. Цао, Ю. Цзя, З. Чен, Дж. Шен, П. Нгуен и Р. Панг «Иерархическое генеративное моделирование для управляемого синтеза речи», в Proc. International Conference on Learning Representations (ICLR), 2019.

В. Н. Хсу, Ю. Чжан, Р. Дж. Вайс, Ю. А. Чунг, Ю. Ван, Ю. Ву и Дж. Гласс «Разделение коррелированных характеристик диктора и шума для синтеза речи с помощью расширения данных и состязательного разложения на множители», в NeurIPS 2018 Workshop on Interpretability and Robustness in Audio, Speech, and Language, 2018.

Х. Дзен, В. Данг, Р. Кларк, Ю. Чжан, Р. Дж. Вайс, Ю. Цзя, З. Чен и Ю. Ву «LibriTTS: корпус, полученный из LibriSpeech для преобразования текста в речь», в Proc. Interspeech, 2019.

Ф. Биадси, Р. Дж. Вайс, П. Морено, Д. Канвески и Ю. Цзя «Parrotron: модель преобразования речи в речь от начала до конца и её применение к речи людей с нарушениями слуха и разделению речи», в Proc. Interspeech, 2019.

Ю. Чжан, Р. Дж. Вайс, Х. Дзен, Ю. Ву, З. Чен, Р. Дж. Скерри-Райан, Ю. Цзя, А. Розенберг и Б. Рамабхадран «Как научиться бегло говорить на иностранном языке: многоязычный синтез речи и клонирование голоса между языками», в Proc. Interspeech, 2019.

Г. Сан, Ю. Чжан, Р. Дж. Вайс, Ю. Цао, Х. Дзен и Ю. Ву «Полностью иерархическое моделирование просодии для интерпретируемого синтеза речи», в Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020.

Г. Сун, Ю. Чжан, Р. Дж. Вайс, Ю. Цао, Х. Дзен, А. Розенберг, Б. Рамабхадран и Ю. Ву «Генерация разнообразных и естественных образцов преобразования текста в речь с использованием квантованного мелкозернистого VAE и авторегрессивного приоритета просодии», в Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020. Оптимизация

Оптимизация

[1] Р. Анил, В. Гупта, Т. Корен, К. Риган и Й. Сингер, «Оптимизация второго порядка на практике», препринт arXiv:2002.09018, 2020. [pdf]
[2] Н. Агарвал, Р. Анил, Э. Хазан, Т. Корен и Ч. Чжан, «Отделяя адаптивные методы градиента от скоростей обучения», препринт arXiv:2002.11803, 2020. [pdf]
[3] Р. Анил, В. Гупта, Т. Корен и Й. Сингер, «Адаптивная оптимизация с эффективным использованием памяти», в Advances in Neural Information Processing Systems, стр. 9749–9758, 2019. [pdf]

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/mirrors-lingvo.git
git@api.gitlife.ru:oschina-mirror/mirrors-lingvo.git
oschina-mirror
mirrors-lingvo
mirrors-lingvo
master