Transformer vision-language tracking via proxy token guided cross-modal fusion.

Published in: Pattern Recognit. Lett. (2023)

Keyphrases