Look, Listen, and Act: Towards Audio-Visual Embodied Navigation.

Chuang Gan Yiwei Zhang Jiajun Wu Boqing Gong Joshua B. Tenenbaum

Published in: CoRR (2019)

Keyphrases

audio visual
multi modal
visual information
multi stream
emotion recognition
video summarization
temporal context
person authentication
audio visual speech recognition
multimedia
visual data
multimodal fusion
databases
data management