End-to-End Transformer Based Model for Image Captioning.

Yiyu Wang Jungang Xu Yingfei Sun

Published in: AAAI (2022)

Keyphrases

end to end
image data
high resolution
image sequences
video sequences
multiresolution
input image
frame rate
multi layer