Attention-based Visual-Audio Fusion for Video Caption Generation.

Published in: ICARM (2019)

Keyphrases