Multimodal Sparse Transformer Network for Audio-Visual Speech Recognition.

Qiya Song Bin Sun Shutao Li

Published in: IEEE Trans. Neural Networks Learn. Syst. (2023)

Keyphrases

audio visual speech recognition
multi stream
high dimensional
audio visual
distribution network
multi modal
computational complexity
hidden markov models