Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing.

Published in: CoRR (2024)

Keyphrases