VicTR: Video-conditioned Text Representations for Activity Recognition.

Kumara Kahatapitiya Anurag Arnab Arsha Nagrani Michael S. Ryoo

Published in: CoRR (2023)

Keyphrases