Audio Captioning Based on Transformer and Pre-Trained CNN.

Kun Chen Yusong Wu Ziyue Wang Xuan Zhang Fudong Nian Shengchen Li Xi Shao

Published in: DCASE (2020)

Keyphrases

pre trained
training data
cellular neural networks
multimedia
training examples
audio visual
visual information
audio signals
signal processing
wide range
control signals
training set
supervised learning
data sets
hidden markov models
feature vectors
support vector
neural network