Publication: Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation.