Learning a Contextualized Multimodal Embedding for Zero-shot Cooking Video Caption Generation.

Lin Wang Hongyi Zhang Xingfu Wang Yan Xiong

Published in: MMAsia (2023)

Keyphrases

learning process
multimedia
learning algorithm
video data
knowledge acquisition
video sequences
reinforcement learning
online learning
multi modal
learning systems
mobile learning
learning tasks
learning mechanism
motion estimation
supervised learning
real time
semantic information
video retrieval
interactive video