Learning to Answer Questions in Dynamic Audio-Visual Scenarios.

Guangyao Li Yake Wei Yapeng Tian Chenliang Xu Ji-Rong Wen Di Hu

Published in: CoRR (2022)

Keyphrases

audio visual
answer questions
domain knowledge
feature extraction
high dimensional
multi modal