Multichannel AV-wav2vec2: A Framework for Learning Multichannel Multi-Modal Speech Representation.

Qiushi Zhu Jie Zhang Yu Gu Yuchen Hu Lirong Dai

Published in: CoRR (2024)

Keyphrases

multi modal
audio visual
cross modal
multi modality
high dimensional
active learning
speech recognition
visual recognition
video search
linear prediction
uni modal