LiveChat: Video Comment Generation from Audio-Visual Multimodal Contexts.

Julien Lalanne Raphael Bournet Yi Yu

Published in: CoRR (2023)

Keyphrases

audio visual
video summarization
visual data
multimedia
meeting room
multi modal
audio visual content
multimodal fusion
audio features
visual information
multi stream
temporal context
video data
video sequences
person authentication
video streams
space time
video content
video frames
key frames
text classification