TMT: A Transformer-Based Modal Translator for Improving Multimodal Sequence Representations in Audio Visual Scene-Aware Dialog.

Published in: INTERSPEECH (2020)

Keyphrases