Jointly Learning Visual and Auditory Speech Representations from Raw Data.

Alexandros Haliassos Pingchuan Ma Rodrigo Mira Stavros Petridis Maja Pantic

Published in: CoRR (2022)

Keyphrases

raw data
visual information
supervised learning
learning process
learning tasks
active learning
language acquisition
online learning
machine learning
learning algorithm
visual learning
neural network
visual representation
cognitive load
speech recognition
multi modal
knowledge acquisition
signal processing
image data
prior knowledge