COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning.

Published in: NeurIPS (2020)

Keyphrases