Multi-Granularity Aggregation Transformer for Joint Video-Audio-Text Representation Learning.

Published in: IEEE Trans. Circuits Syst. Video Technol. (2023)

Keyphrases