SPEAKER VGG CCT: Cross-Corpus Speech Emotion Recognition with Speaker Embedding and Vision Transformers.

Alessandro Arezzo Stefano Berretti

Published in: MMAsia (2022)

Keyphrases

speech emotion recognition
speech recognition
speaker verification
audio visual
computer vision
speaker diarization
real time
automatic speech recognition
vision system
speaker dependent
information retrieval
hidden markov models