Audio Visual Speaker Localization from EgoCentric Views.

Jinzheng Zhao Yong Xu Xinyuan Qian Wenwu Wang

Published in: CoRR (2023)

Keyphrases

audio visual
video summarization
multi modal
speaker verification
visual information
multimedia
visual data
emotion recognition
multi stream
temporal context
database
activity recognition
audio features
audio visual speech recognition
person authentication
keywords
data sets