An Improved End-to-End Audio-Visual Speech Recognition Model.

Sheng Yang Zheng Gong Jia Kang

Published in: INTERSPEECH (2023)

Keyphrases

end to end
high level
multiresolution
probabilistic model
multipath
transform domain