Look, Listen, and Act: Towards Audio-Visual Embodied Navigation.

Chuang Gan Yiwei Zhang Jiajun Wu Boqing Gong Joshua B. Tenenbaum

Published in: ICRA (2020)

Keyphrases

audio visual
multi modal
emotion recognition
visual data
temporal context
multi stream
visual information
audio visual speech recognition
multimedia
video summarization
person authentication
information extraction
databases
information retrieval
feature extraction