TAVT: Towards Transferable Audio-Visual Text Generation.

Wang Lin Tao Jin Wenwen Pan Linjun Li Xize Cheng Ye Wang Zhou Zhao

Published in: ACL (1) (2023)

Keyphrases

audio visual
text generation
natural language generation
multi modal
natural language
multimedia
visual information
visual data
person authentication
theorem prover
multi stream
temporal context
audio visual speech recognition
data processing
information retrieval
natural language processing
domain knowledge