An investigation on selecting audio pre-trained models for audio captioning.

Peiran Yan Shengchen Li

Published in: CoRR (2022)

Keyphrases

multimedia
pre trained
wide range
probabilistic model
visual information
visual data
decision trees
face recognition
prior knowledge
input image
signal processing
feature points