Active Sparse Conversations for Improved Audio-Visual Embodied Navigation.

Xiulong Liu Sudipta Paul Moitreya Chatterjee Anoop Cherian

Published in: CoRR (2023)

Keyphrases

audio visual
multi modal
visual information
visual data
person authentication
high dimensional
multi stream
temporal context
emotion recognition
multimodal fusion
multimedia
audio visual speech recognition
computer vision
data processing
video sequences
three dimensional
databases