CLIP4VideoCap: Rethinking Clip for Video Captioning with Multiscale Temporal Fusion and Commonsense Knowledge.

Published in: ICASSP (2023)

Keyphrases