LCB-net: Long-Context Biasing for Audio-Visual Speech Recognition.

Fan Yu Haoxu Wang Xian Shi Shiliang Zhang

Published in: CoRR (2024)

Keyphrases

audio visual speech recognition
multi stream