Classifying Non-speech Vocals: Deep vs Signal Processing Representations.

Fatemeh Pishdadian Prem Seetharaman Bongjun Kim Bryan Pardo

Published in: DCASE (2019)

Keyphrases

signal processing
speech processing
image processing
speech recognition
fourier transform
symbolic representation
deep learning
speech signal
pattern recognition
computer vision
spontaneous speech
text to speech
recognition engine
signal analysis
digital signal processing
endpoint detection
information retrieval
automatic speech recognition
automatic classification
multi modal
audio features
spoken language
broadcast news
watermarking algorithm
filter bank
speech synthesis
low level
similarity measure
data sets