Conversational Speech Recognition by Learning Audio-Textual Cross-Modal Contextual Representation.

Published in: IEEE ACM Trans. Audio Speech Lang. Process. (2024)

Keyphrases