Multimodal Transformer with Variable-Length Memory for Vision-and-Language Navigation.

Published in: ECCV (36) (2022)

Keyphrases