Leveraging per Image-Token Consistency for Vision-Language Pre-training.

Yunhao Gou Tom Ko Hansi Yang James Kwok Yu Zhang Mingxuan Wang

Published in: CoRR (2022)

Keyphrases