Vision Guided Generative Pre-trained Language Models for Multimodal Abstractive Summarization.

Tiezheng Yu Wenliang Dai Zihan Liu Pascale Fung

Published in: EMNLP (1) (2021)

Keyphrases

language model
vision guided
pre trained
mobile robot navigation
language modeling
training data
natural scenes
n gram
probabilistic model
generative model
training examples
speech recognition
information retrieval
query expansion
multi modal
mobile robot
language modeling framework
smoothing methods
control signals
natural images
active learning
audio visual
relevance model
pairwise
multimedia
machine learning