Multi-entity Video Transformers for Fine-Grained Video Representation Learning.

Published in: CoRR (2023)

Keyphrases