CATNet: Cross-modal fusion for audio-visual speech recognition.

Xingmei Wang Jiachen Mi Boquan Li Yixu Zhao Jiaxiang Meng

Published in: Pattern Recognit. Lett. (2024)

Keyphrases

cross modal
audio visual speech recognition
multi modal
audio visual
multi stream
visual data
multimedia databases
multimedia retrieval
image retrieval
visual recognition
visual similarity
object recognition
speech recognition
visual information