PolyViT: Co-training Vision Transformers on Images, Videos and Audio.

Published in: Trans. Mach. Learn. Res. (2023)

Keyphrases