Mounting Video Metadata on Transformer-based Language Model for Open-ended Video Question Answering.

Donggeon Lee Seongho Choi Youwon Jang Byoung-Tak Zhang

Published in: CoRR (2021)

Keyphrases

question answering
language model
open ended
information retrieval
multimedia
language modeling
metadata
passage retrieval
sentence retrieval
video content
n gram
probabilistic model
named entities
document retrieval
retrieval model
query terms
natural language
speech recognition
context sensitive
natural language processing
cross language
bayesian networks