An Empirical Study of Training End-to-End Vision-and-Language Transformers.

Zi-Yi Dou Yichong Xu Zhe Gan Jianfeng Wang Shuohang Wang Lijuan Wang Chenguang Zhu Pengchuan Zhang Lu Yuan Nanyun Peng Zicheng Liu Michael Zeng

Published in: CoRR (2021)

Keyphrases