SSAST: Self-Supervised Audio Spectrogram Transformer.

Yuan Gong Cheng-I Jeff Lai Yu-An Chung James R. Glass

Published in: CoRR (2021)

Keyphrases

multimedia
pattern analysis
fuzzy logic
signal processing
audio visual
audio video
fault diagnosis
visual information
audio files
audio signals
distribution network
speech signal
short time fourier transform
energy distribution
neural network
text graphics
music score
audio recordings
high voltage
data sets
audio stream
video recordings
cross modal
digital video
visual data
computational intelligence
pattern recognition
artificial intelligence