Efficient Video Transformers via Spatial-temporal Token Merging for Action Recognition.

Published in: ACM Trans. Multim. Comput. Commun. Appl. (2024)

Keyphrases