VE-KWS: Visual Modality Enhanced End-to-End Keyword Spotting.

Ao Zhang He Wang Pengcheng Guo Yihui Fu Lei Xie Yingying Gao Shilei Zhang Junlan Feng

Published in: CoRR (2023)

Keyphrases

end to end
keyword spotting
speech recognition
hidden markov models
multi modal
visual information
visual features
congestion control
admission control
printed documents
computer vision
image processing
multimedia
bayesian networks
image analysis
speech processing