Recurrent multi-head attention fusion network for combining audio and text for speech emotion recognition.

Published in: INTERSPEECH (2022)

Keyphrases