Vista-LLaMA: Reliable Video Narrator via Equal Distance to Visual Tokens.

Fan Ma Xiaojie Jin Heng Wang Yuchen Xian Jiashi Feng Yi Yang

Published in: CoRR (2023)

Keyphrases