BEATs: Audio Pre-Training with Acoustic Tokenizers.

Sanyuan Chen Yu Wu Chengyi Wang Shujie Liu Daniel Tompkins Zhuo Chen Wanxiang Che Xiangzhan Yu Furu Wei

Published in: ICML (2023)

Keyphrases

feature extraction
image classification
feature vectors
acoustic features
audio signal
training algorithm
multimedia
supervised learning
neural network
training process
multi modal
emotion recognition
training phase
data sets
signal processing
feature selection
audio video
discriminative training
source localization
prosodic features
audio stream
visual information
test set
online learning
training set
image sequences