MSViT: Dynamic Mixed-Scale Tokenization for Vision Transformers.

Jakob Drachmann Havtorn Amelie Royer Tijmen Blankevoort Babak Ehteshami Bejnordi

Published in: CoRR (2023)

Keyphrases

real time
computer vision
neural network
image processing
scale space
dynamic environments
data sets
databases
data mining
artificial intelligence
knowledge base
natural language
information retrieval systems
vision system
small scale
cross language information retrieval