Crowdsourcing a Dataset of Audio Captions.

Samuel Lipping Konstantinos Drossos Tuomas Virtanen

Published in: DCASE (2019)

Keyphrases

benchmark datasets
multimedia
audio visual
temporal information
database
neural network
high level
signal processing
visual information
training dataset
audio signals
data sets
visual features
image search
audio files
mechanical turk