Zhihao Du

Publication Activity (10 Years)

Years Active: 2018-2024
Publications (10 Years): 46

Top Topics

Speech Recognition

Speaker Diarization

Keyword Spotting

Top Venues

Publications

Zhihao Du, Qian Chen, Shiliang Zhang, Kai Hu, Heng Lu, Yexin Yang, Hangrui Hu, Siqi Zheng, Yue Gu, Ziyang Ma, Zhifu Gao, Zhijie Yan
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens. CoRR (2024)
Shuang Cui, Zhihao Du, Nannan Wang, Xiuli Zhang, Zongquan Li, Yanping Zhang, Liang Wang
Assessing the Post-Activation Performance Enhancement of Upper Limbs in Basketball Athletes: A Sensor-Based Study of Rapid Stretch Compound and Blood Flow Restriction Training. Sensors 24 (14) (2024)
Zhihao Du, Shiliang Zhang, Kai Hu, Siqi Zheng
FunCodec: A Fundamental, Reproducible and Integrable Open-Source Toolkit for Neural Speech Codec. ICASSP (2024)
Kexin He, Yao Sun, Shuang Xiao, Xiuli Zhang, Zhihao Du, Yanping Zhang
Effects of High-Load Bench Press Training with Different Blood Flow Restriction Pressurization Strategies on the Degree of Muscle Activation in the Upper Limbs of Bodybuilders. Sensors 24 (2) (2024)
Ziyang Ma, Guanrou Yang, Yifan Yang, Zhifu Gao, Jiaming Wang, Zhihao Du, Fan Yu, Qian Chen, Siqi Zheng, Shiliang Zhang, Xie Chen
An Embarrassingly Simple Approach for LLM with Strong ASR Capacity. CoRR (2024)
Keyu An, Qian Chen, Chong Deng, Zhihao Du, Changfeng Gao, Zhifu Gao, Yue Gu, Ting He, Hangrui Hu, Kai Hu, Shengpeng Ji, Yabin Li, Zerui Li, Heng Lu, Haoneng Luo, Xiang Lv, Bin Ma, Ziyang Ma, Chongjia Ni, Changhe Song, Jiaqi Shi, Xian Shi, Hao Wang, Wen Wang, Yuxuan Wang, Zhangyu Xiao, Zhijie Yan, Yexin Yang, Bin Zhang, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Siqi Zheng
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs. CoRR (2024)
Zhihao Du, Yike Li, Chao Chen, Zheng Wang
AttenTPU: Tensor Processor for Attention Mechanism with Fine-Grained Padding. ICTA (2023)
Jiaming Wang, Zhihao Du, Qian Chen, Yunfei Chu, Zhifu Gao, Zerui Li, Kai Hu, Xiaohuan Zhou, Jin Xu, Ziyang Ma, Wen Wang, Siqi Zheng, Chang Zhou, Zhijie Yan, Shiliang Zhang
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT. CoRR (2023)
Mohan Shi, Zhihao Du, Qian Chen, Fan Yu, Yangze Li, Shiliang Zhang, Jie Zhang, Li-Rong Dai
CASA-ASR: Context-Aware Speaker-Attributed ASR. CoRR (2023)
Zhifu Gao, Zerui Li, Jiaming Wang, Haoneng Luo, Xian Shi, Mengzhe Chen, Yabin Li, Lingyun Zuo, Zhihao Du, Shiliang Zhang
FunASR: A Fundamental End-to-End Speech Recognition Toolkit. INTERSPEECH (2023)
Yuhao Liang, Mohan Shi, Fan Yu, Yangze Li, Shiliang Zhang, Zhihao Du, Qian Chen, Lei Xie, Yanmin Qian, Jian Wu, Zhuo Chen, Kong Aik Lee, Zhijie Yan, Hui Bu
The Second Multi-Channel Multi-Party Meeting Transcription Challenge (M2MeT 2.0): A Benchmark for Speaker-Attributed ASR. ASRU (2023)
Zhihao Du, Shiliang Zhang, Kai Hu, Siqi Zheng
FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit for Neural Speech Codec. CoRR (2023)
Yue Gu, Zhihao Du, Shiliang Zhang, Qian Chen, Jiqing Han
Personality-aware Training based Speaker Adaptation for End-to-end Speech Recognition. INTERSPEECH (2023)
Yuhao Liang, Mohan Shi, Fan Yu, Yangze Li, Shiliang Zhang, Zhihao Du, Qian Chen, Lei Xie, Yanmin Qian, Jian Wu, Zhuo Chen, Kong Aik Lee, Zhijie Yan, Hui Bu
The second multi-channel multi-party meeting transcription challenge (M2MeT) 2.0): A benchmark for speaker-attributed ASR. CoRR (2023)
Yangze Li, Fan Yu, Yuhao Liang, Pengcheng Guo, Mohan Shi, Zhihao Du, Shiliang Zhang, Lei Xie
Sa-Paraformer: Non-Autoregressive End-To-End Speaker-Attributed ASR. ASRU (2023)
Yangze Li, Fan Yu, Yuhao Liang, Pengcheng Guo, Mohan Shi, Zhihao Du, Shiliang Zhang, Lei Xie
SA-Paraformer: Non-autoregressive End-to-End Speaker-Attributed ASR. CoRR (2023)
Jiaming Wang, Zhihao Du, Shiliang Zhang
TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization. CoRR (2023)
Mohan Shi, Jie Zhang, Zhihao Du, Fan Yu, Qian Chen, Shiliang Zhang, Li-Rong Dai
A Comparative Study on Multichannel Speaker-Attributed Automatic Speech Recognition in Multi-party Meetings. APSIPA ASC (2023)
Mohan Shi, Zhihao Du, Qian Chen, Fan Yu, Yangze Li, Shiliang Zhang, Jie Zhang, Li-Rong Dai
CASA-ASR: Context-Aware Speaker-Attributed ASR. INTERSPEECH (2023)
Zhifu Gao, Zerui Li, Jiaming Wang, Haoneng Luo, Xian Shi, Mengzhe Chen, Yabin Li, Lingyun Zuo, Zhihao Du, Zhangyu Xiao, Shiliang Zhang
FunASR: A Fundamental End-to-End Speech Recognition Toolkit. CoRR (2023)
Jiaming Wang, Zhihao Du, Shiliang Zhang
TOLD: a Novel Two-Stage Overlap-Aware Framework for Speaker Diarization. ICASSP (2023)
Fan Yu, Zhihao Du, Shiliang Zhang, Yuxiao Lin, Lei Xie
A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings. INTERSPEECH (2022)
Zhihao Du, Shiliang Zhang, Siqi Zheng, Zhi-Jie Yan
Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis. EMNLP (2022)
Mohan Shi, Jie Zhang, Zhihao Du, Fan Yu, Shiliang Zhang, Li-Rong Dai
A Comparative Study on multichannel Speaker-attributed automatic speech recognition in Multi-party Meetings. CoRR (2022)
Fan Yu, Shiliang Zhang, Pengcheng Guo, Yihui Fu, Zhihao Du, Siqi Zheng, Weilong Huang, Lei Xie, Zheng-Hua Tan, DeLiang Wang, Yanmin Qian, Kong Aik Lee, Zhijie Yan, Bin Ma, Xin Xu, Hui Bu
Summary on the ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Grand Challenge. ICASSP (2022)
Fan Yu, Zhihao Du, Shiliang Zhang, Yuxiao Lin, Lei Xie
A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings. CoRR (2022)
Fan Yu, Shiliang Zhang, Yihui Fu, Lei Xie, Siqi Zheng, Zhihao Du, Weilong Huang, Pengcheng Guo, Zhijie Yan, Bin Ma, Xin Xu, Hui Bu
M2Met: The Icassp 2022 Multi-Channel Multi-Party Meeting Transcription Challenge. ICASSP (2022)
Yuxiao Lin, Zhihao Du, Shiliang Zhang, Fan Yu, Zhou Zhao, Fei Wu
Separate-to-Recognize: Joint Multi-target Speech Separation and Speech Recognition for Speaker-attributed ASR. ISCSLP (2022)
Fan Yu, Shiliang Zhang, Pengcheng Guo, Yuhao Liang, Zhihao Du, Yuxiao Lin, Lei Xie
MFCCA:Multi-Frame Cross-Channel Attention for Multi-Speaker ASR in Multi-Party Meeting Scenario. SLT (2022)
Fan Yu, Shiliang Zhang, Pengcheng Guo, Yuhao Liang, Zhihao Du, Yuxiao Lin, Lei Xie
MFCCA: Multi-Frame Cross-Channel attention for multi-speaker ASR in Multi-party meeting scenario. CoRR (2022)
Zhihao Du, Shiliang Zhang, Siqi Zheng, Zhijie Yan
Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis. CoRR (2022)
Fan Yu, Shiliang Zhang, Pengcheng Guo, Yihui Fu, Zhihao Du, Siqi Zheng, Weilong Huang, Lei Xie, Zheng-Hua Tan, DeLiang Wang, Yanmin Qian, Kong Aik Lee, Zhijie Yan, Bin Ma, Xin Xu, Hui Bu
Summary On The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Grand Challenge. CoRR (2022)
Zhihao Du, Shiliang Zhang, Siqi Zheng, Zhijie Yan
Speaker Embedding-aware Neural Diarization: an Efficient Framework for Overlapping Speech Diarization in Meeting Scenarios. CoRR (2022)
Hongwei Song, Jiqing Han, Shiwen Deng, Zhihao Du
Capturing Temporal Dependencies Through Future Prediction for CNN-Based Audio Classifiers. ICASSP (2021)
Zhihao Du, Shiliang Zhang, Siqi Zheng, Weilong Huang, Ming Lei
Speaker Embedding-aware Neural Diarization for Flexible Number of Speakers with Textual Information. CoRR (2021)
Fan Yu, Shiliang Zhang, Yihui Fu, Lei Xie, Siqi Zheng, Zhihao Du, Weilong Huang, Pengcheng Guo, Zhijie Yan, Bin Ma, Xin Xu, Hui Bu
M2MeT: The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Challenge. CoRR (2021)
Zhihao Du, Ming Lei, Jiqing Han, Shiliang Zhang
Self-Supervised Adversarial Multi-Task Learning for Vocoder-Based Monaural Speech Enhancement. INTERSPEECH (2020)
Yue Gu, Zhihao Du, Hui Zhang, Xueliang Zhang
An Efficient Joint Training Framework for Robust Small-Footprint Keyword Spotting. ICONIP (1) (2020)
Zhihao Du, Xueliang Zhang, Jiqing Han
A Joint Framework of Denoising Autoencoder and Generative Vocoder for Monaural Speech Enhancement. IEEE ACM Trans. Audio Speech Lang. Process. 28 (2020)
Zhihao Du, Ming Lei, Jiqing Han, Shiliang Zhang
Pan: Phoneme-Aware Network for Monaural Speech Enhancement. ICASSP (2020)
Zhihao Du, Jiqing Han, Xueliang Zhang
Double Adversarial Network Based Monaural Speech Enhancement for Robust Speech Recognition. INTERSPEECH (2020)
Yue Gu, Zhihao Du, Hui Zhang, Xueliang Zhang
A Monaural Speech Enhancement Method for Robust Small-Footprint Keyword Spotting. CoRR (2019)
Zhihao Du, Xueliang Zhang, Jiqing Han
Investigation of Monaural Front-End Processing for Robust Speech Recognition Without Retraining or Joint-Training. APSIPA (2019)
Hongwei Song, Jiqing Han, Shiwen Deng, Zhihao Du
Acoustic Scene Classification by Implicitly Identifying Distinct Sound Events. CoRR (2019)
Hongwei Song, Jiqing Han, Shiwen Deng, Zhihao Du
Acoustic Scene Classification by Implicitly Identifying Distinct Sound Events. INTERSPEECH (2019)
Zhihao Du, Xueliang Zhang, Jiqing Han
Investigation of Monaural Front-End Processing for Robust ASR without Retraining or Joint-Training. CoRR (2018)