Publication: Speaker-Independent Audio-Visual Speech Separation Based on Transformer in Multi-Talker Environments.