A Comparative Study on Transformer vs RNN in Speech Applications.

Shigeki Karita Xiaofei Wang Shinji Watanabe Takenori Yoshimura Wangyou Zhang Nanxin Chen Tomoki Hayashi Takaaki Hori Hirofumi Inaguma Ziyan Jiang Masao Someki Nelson Enrique Yalta Soplin Ryuichi Yamamoto

Published in: ASRU (2019)

Keyphrases

recurrent neural networks
nearest neighbor
speech recognition
fuzzy logic
fault diagnosis
speech signal
endpoint detection
recognition engine
speaker recognition
comparative study
automatic speech recognition
high voltage
speech synthesis
audio visual
speech processing
spoken language
power system
hidden markov models
artificial intelligence
noisy environments
emotion recognition
information retrieval
feed forward
human communication
multi modal
spontaneous speech
learning algorithm