MPE4G: Multimodal Pretrained Encoder for Co-Speech Gesture Generation.

Gwantae Kim Seonghyeok Noh Insung Ham Hanseok Ko

Published in: CoRR (2023)

Keyphrases

multimodal interfaces
multi stream
multimodal interaction
human computer interaction
audio visual
learning mechanism
human centered
gesture recognition
hand movements
closely related
speech recognition
user interface
belief networks
rate distortion
future trends
probabilistic inference
bit rate
search algorithm
multi modal
motion estimation
hidden markov models
video codec
bayesian networks
weighted max sat
hand gestures
low complexity
visual information
image quality
probabilistic model