Zhifu Gao

Publication Activity (10 Years)

Years Active: 2018-2024
Publications (10 Years): 24

Top Topics

Speech Recognition

Speaker Verification

Automatic Speech Recognition

Top Venues

Publications

Ziyang Ma, Zhisheng Zheng, Jiaxin Ye, Jinchao Li, Zhifu Gao, Shiliang Zhang, Xie Chen
emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation. ACL (Findings) (2024)
Zhihao Du, Qian Chen, Shiliang Zhang, Kai Hu, Heng Lu, Yexin Yang, Hangrui Hu, Siqi Zheng, Yue Gu, Ziyang Ma, Zhifu Gao, Zhijie Yan
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens. CoRR (2024)
Ziyang Ma, Guanrou Yang, Yifan Yang, Zhifu Gao, Jiaming Wang, Zhihao Du, Fan Yu, Qian Chen, Siqi Zheng, Shiliang Zhang, Xie Chen
An Embarrassingly Simple Approach for LLM with Strong ASR Capacity. CoRR (2024)
Keyu An, Qian Chen, Chong Deng, Zhihao Du, Changfeng Gao, Zhifu Gao, Yue Gu, Ting He, Hangrui Hu, Kai Hu, Shengpeng Ji, Yabin Li, Zerui Li, Heng Lu, Haoneng Luo, Xiang Lv, Bin Ma, Ziyang Ma, Chongjia Ni, Changhe Song, Jiaqi Shi, Xian Shi, Hao Wang, Wen Wang, Yuxuan Wang, Zhangyu Xiao, Zhijie Yan, Yexin Yang, Bin Zhang, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Siqi Zheng
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs. CoRR (2024)
Guanrou Yang, Ziyang Ma, Fan Yu, Zhifu Gao, Shiliang Zhang, Xie Chen
MaLa-ASR: Multimedia-Assisted LLM-Based ASR. CoRR (2024)
Xian Shi, Yexin Yang, Zerui Li, Yanni Chen, Zhifu Gao, Shiliang Zhang
SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability. ICASSP (2024)
Jiaming Wang, Zhihao Du, Qian Chen, Yunfei Chu, Zhifu Gao, Zerui Li, Kai Hu, Xiaohuan Zhou, Jin Xu, Ziyang Ma, Wen Wang, Siqi Zheng, Chang Zhou, Zhijie Yan, Shiliang Zhang
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT. CoRR (2023)
Xian Shi, Haoneng Luo, Zhifu Gao, Shiliang Zhang, Zhijie Yan
Accurate and Reliable Confidence Estimation Based on Non-Autoregressive End-to-End Speech Recognition System. INTERSPEECH (2023)
Zhifu Gao, Zerui Li, Jiaming Wang, Haoneng Luo, Xian Shi, Mengzhe Chen, Yabin Li, Lingyun Zuo, Zhihao Du, Shiliang Zhang
FunASR: A Fundamental End-to-End Speech Recognition Toolkit. INTERSPEECH (2023)
Ziyang Ma, Zhisheng Zheng, Jiaxin Ye, Jinchao Li, Zhifu Gao, Shiliang Zhang, Xie Chen
emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation. CoRR (2023)
Xian Shi, Haoneng Luo, Zhifu Gao, Shiliang Zhang, Zhijie Yan
Accurate and Reliable Confidence Estimation Based on Non-Autoregressive End-to-End Speech Recognition System. CoRR (2023)
Zhifu Gao, Zerui Li, Jiaming Wang, Haoneng Luo, Xian Shi, Mengzhe Chen, Yabin Li, Lingyun Zuo, Zhihao Du, Zhangyu Xiao, Shiliang Zhang
FunASR: A Fundamental End-to-End Speech Recognition Toolkit. CoRR (2023)
Zhifu Gao, Shiliang Zhang, Ian McLoughlin, Zhijie Yan
Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition. INTERSPEECH (2022)
Zhifu Gao, Shiliang Zhang, Ian McLoughlin, Zhijie Yan
Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition. CoRR (2022)
Zhifu Gao, Yiwu Yao, Shiliang Zhang, Jun Yang, Ming Lei, Ian McLoughlin
Extremely Low Footprint End-to-End ASR System for Smart Device. CoRR (2021)
Zhifu Gao, Yiwu Yao, Shiliang Zhang, Jun Yang, Ming Lei, Ian McLoughlin
Extremely Low Footprint End-to-End ASR System for Smart Device. Interspeech (2021)
Zhifu Gao, Shiliang Zhang, Ming Lei, Ian McLoughlin
SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition. CoRR (2020)
Shiliang Zhang, Zhifu Gao, Haoneng Luo, Ming Lei, Jie Gao, Zhijie Yan, Lei Xie
Streaming Chunk-Aware Multihead Attention for Online End-to-End Speech Recognition. CoRR (2020)
Zhifu Gao, Shiliang Zhang, Ming Lei, Ian McLoughlin
SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition. INTERSPEECH (2020)
Shiliang Zhang, Zhifu Gao, Haoneng Luo, Ming Lei, Jie Gao, Zhijie Yan, Lei Xie
Streaming Chunk-Aware Multihead Attention for Online End-to-End Speech Recognition. INTERSPEECH (2020)
Zhifu Gao, Shiliang Zhang, Ming Lei, Ian McLoughlin
Universal ASR: Unifying Streaming and Non-Streaming ASR Using a Single Encoder-Decoder Model. CoRR (2020)
Zhifu Gao, Yan Song, Ian McLoughlin, Pengcheng Li, Yiheng Jiang, Li-Rong Dai
Improving Aggregation and Loss Function for Better Embedding Learning in End-to-End Speaker Verification System. INTERSPEECH (2019)
Yiheng Jiang, Yan Song, Ian McLoughlin, Zhifu Gao, Li-Rong Dai
An Effective Deep Embedding Learning Architecture for Speaker Verification. INTERSPEECH (2019)
Zhifu Gao, Yan Song, Ian McLoughlin, Wu Guo, Lirong Dai
An Improved Deep Embedding Learning Method for Short Duration Speaker Verification. INTERSPEECH (2018)