Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Muti-Person Video.

Published in: INTERSPEECH (2022)

Keyphrases