Multimodal Sensor-Input Architecture with Deep Learning for Audio-Visual Speech Recognition in Wild.

Yibo He Kah Phooi Seng Li-Minn Ang

Published in: Sensors (2023)

Keyphrases

deep learning
audio visual speech recognition
multi stream
audio visual
unsupervised learning
machine learning
multi modal
mental models
unsupervised feature learning
weakly supervised
multimedia
pattern recognition
hidden markov models
feature selection
visual information