Natural-Language-Driven Multimodal Representation Learning for Audio-Visual Scene-Aware Dialog System.

Yoonseok Heo Sangwoo Kang Jungyun Seo

Published in: Sensors (2023)

Keyphrases

natural language
visual scene
real time
multimedia
reinforcement learning
search engine
information extraction
multi modal
contextual information