Ye Bai

Publication Activity (10 Years)

Years Active: 2011-2024
Publications (10 Years): 57

Top Topics

Speech Recognition

Keyword Spotting

Top Venues

Publications

Ye Bai, Chenxing Li, Hao Li, Yuanyuan Zhao, Xiaorui Wang
Jointly Recognizing Speech and Singing Voices Based on Multi-Task Audio Source Separation. CoRR (2024)
Junzuo Zhou, Jiangyan Yi, Tao Wang, Jianhua Tao, Ye Bai, Chu Yuan Zhang, Yong Ren, Zhengqi Wen
TraceableSpeech: Towards Proactively Traceable Text-to-Speech with Watermarking. CoRR (2024)
Qianqian Dong, Zhiying Huang, Qi Tian, Chen Xu, Tom Ko, Yunlong Zhao, Siyuan Feng, Tang Li, Kexin Wang, Xuxin Cheng, Fengpeng Yue, Ye Bai, Xi Chen, Lu Lu, Zejun Ma, Yuping Wang, Mingxuan Wang, Yuxuan Wang
PolyVoice: Language Models for Speech to Speech Translation. ICLR (2024)
Ye Bai, Jingping Chen, Jitong Chen, Wei Chen, Zhuo Chen, Chuang Ding, Linhao Dong, Qianqian Dong, Yujiao Du, Kepan Gao, Lu Gao, Yi Guo, Minglun Han, Ting Han, Wenchao Hu, Xinying Hu, Yuxiang Hu, Deyu Hua, Lu Huang, Mingkun Huang, Youjia Huang, Jishuo Jin, Fanliu Kong, Zongwei Lan, Tianyu Li, Xiaoyang Li, Zeyang Li, Zehua Lin, Rui Liu, Shouda Liu, Lu Lu, Yizhou Lu, Jingting Ma, Shengtao Ma, Yulin Pei, Chen Shen, Tian Tan, Xiaogang Tian, Ming Tu, Bo Wang, Hao Wang, Yuping Wang, Yuxuan Wang, Hanzhang Xia, Rui Xia, Shuangyi Xie, Hongmin Xu, Meng Yang, Bihong Zhang, Jun Zhang, Wanyi Zhang, Yang Zhang, Yawei Zhang, Yijie Zheng, Ming Zou
Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition. CoRR (2024)
Jiangyan Yi, Jianhua Tao, Ye Bai, Zhengkun Tian, Cunhang Fan
Transfer knowledge for punctuation prediction via adversarial training. Speech Commun. 149 (2023)
Qianqian Dong, Zhiying Huang, Chen Xu, Yunlong Zhao, Kexin Wang, Xuxin Cheng, Tom Ko, Qiao Tian, Tang Li, Fengpeng Yue, Ye Bai, Xi Chen, Lu Lu, Zejun Ma, Yuping Wang, Mingxuan Wang, Yuxuan Wang
PolyVoice: Language Models for Speech to Speech Translation. CoRR (2023)
Zeyu Jin, Zixuan Wang, Qixin Wang, Jia Jia, Ye Bai, Yi Zhao, Hao Li, Xiaorui Wang
HoloSinger: Semantics and Music Driven Motion Generation with Octahedral Holographic Projection. ACM Multimedia (2023)
Chenxing Li, Ye Bai, Yang Wang, Feng Deng, Yuanyuan Zhao, Zhuo Zhang, Xiaorui Wang
Image-driven Audio-visual Universal Source Separation. INTERSPEECH (2023)
Ying Zhang, Peng Yang, Jinba Xiao, Ye Bai, Hao Che, Xiaorui Wang
K-Converter: An Unsupervised Singing Voice Conversion System. ICASSP (2022)
Jiangyan Yi, Ruibo Fu, Jianhua Tao, Shuai Nie, Haoxin Ma, Chenglong Wang, Tao Wang, Zhengkun Tian, Ye Bai, Cunhang Fan, Shan Liang, Shiming Wang, Shuai Zhang, Xinrui Yan, Le Xu, Zhengqi Wen, Haizhou Li
ADD 2022: the first Audio Deep Synthesis Detection Challenge. ICASSP (2022)
Ye Bai, Jie Li, Wenjing Han, Hao Ni, Kaituo Xu, Zhuo Zhang, Cheng Yi, Xiaorui Wang
Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech Recognition. CoRR (2022)
Jiangyan Yi, Ruibo Fu, Jianhua Tao, Shuai Nie, Haoxin Ma, Chenglong Wang, Tao Wang, Zhengkun Tian, Ye Bai, Cunhang Fan, Shan Liang, Shiming Wang, Shuai Zhang, Xinrui Yan, Le Xu, Zhengqi Wen, Haizhou Li, Zheng Lian, Bin Liu
ADD 2022: the First Audio Deep Synthesis Detection Challenge. CoRR (2022)
Ye Bai, Jie Li, Wenjing Han, Hao Ni, Kaituo Xu, Zhuo Zhang, Cheng Yi, Xiaorui Wang
Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech Recognition. INTERSPEECH (2022)
Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Zhengqi Wen, Shuai Zhang
Fast End-to-End Speech Recognition via a Non-Autoregressive Model and Cross-Modal Knowledge Transferring from BERT. CoRR (2021)
Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengqi Wen, Zhengkun Tian, Shuai Zhang
Integrating Knowledge Into End-to-End Speech Recognition From External Text-Only Data. IEEE ACM Trans. Audio Speech Lang. Process. 29 (2021)
Zhengkun Tian, Jiangyan Yi, Ye Bai, Jianhua Tao, Shuai Zhang, Zhengqi Wen
FSR: Accelerating the Inference Process of Transducer-Based Models by Applying Fast-Skip Regularization. Interspeech (2021)
Haoxin Ma, Jiangyan Yi, Jianhua Tao, Ye Bai, Zhengkun Tian, Chenglong Wang
Continual Learning for Fake Audio Detection. CoRR (2021)
Zhengkun Tian, Jiangyan Yi, Jianhua Tao, Ye Bai, Shuai Zhang, Zhengqi Wen, Xuefei Liu
TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech Recognition. CoRR (2021)
Jiangyan Yi, Ye Bai, Jianhua Tao, Haoxin Ma, Zhengkun Tian, Chenglong Wang, Tao Wang, Ruibo Fu
Half-Truth: A Partially Fake Audio Detection Dataset. Interspeech (2021)
Zhengkun Tian, Jiangyan Yi, Ye Bai, Jianhua Tao, Shuai Zhang, Zhengqi Wen
One In A Hundred: Selecting the Best Predicted Sequence from Numerous Candidates for Speech Recognition. APSIPA ASC (2021)
Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Zhengqi Wen, Shuai Zhang
Fast End-to-End Speech Recognition Via Non-Autoregressive Models and Cross-Modal Knowledge Transferring From BERT. IEEE ACM Trans. Audio Speech Lang. Process. 29 (2021)
Zhengkun Tian, Jiangyan Yi, Ye Bai, Jianhua Tao, Shuai Zhang, Zhengqi Wen
FSR: Accelerating the Inference Process of Transducer-Based Models by Applying Fast-Skip Regularization. CoRR (2021)
Haoxin Ma, Jiangyan Yi, Jianhua Tao, Ye Bai, Zhengkun Tian, Chenglong Wang
Continual Learning for Fake Audio Detection. Interspeech (2021)
Shuai Zhang, Jiangyan Yi, Zhengkun Tian, Ye Bai, Jianhua Tao, Xuefei Liu, Zhengqi Wen
End-to-End Spelling Correction Conditioned on Acoustic Feature for Code-Switching Speech Recognition. Interspeech (2021)
Jiangyan Yi, Ye Bai, Jianhua Tao, Zhengkun Tian, Chenglong Wang, Tao Wang, Ruibo Fu
Half-Truth: A Partially Fake Audio Detection Dataset. CoRR (2021)
Chenglong Wang, Jiangyan Yi, Jianhua Tao, Ye Bai, Zhengkun Tian
Hierarchically Attending Time-Frequency and Channel Features for Improving Speaker Verification. ISCSLP (2021)
Shuai Zhang, Jiangyan Yi, Zhengkun Tian, Ye Bai, Jianhua Tao, Zhengqi Wen
Decoupling Pronunciation and Language for End-to-End Code-Switching Automatic Speech Recognition. ICASSP (2021)
Shuai Zhang, Jiangyan Yi, Zhengkun Tian, Jianhua Tao, Ye Bai
Rnn-transducer With Language Bias For End-to-end Mandarin-English Code-switching Speech Recognition. ISCSLP (2021)
Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Zhengqi Wen, Shuai Zhang
Listen Attentively, and Spell Once: Whole Sentence Generation via a Non-Autoregressive Architecture for Low-Latency Speech Recognition. INTERSPEECH (2020)
Zhengkun Tian, Jiangyan Yi, Jianhua Tao, Ye Bai, Shuai Zhang, Zhengqi Wen
Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech Recognition. CoRR (2020)
Shuai Zhang, Jiangyan Yi, Zhengkun Tian, Jianhua Tao, Ye Bai
Rnn-transducer with language bias for end-to-end Mandarin-English code-switching speech recognition. CoRR (2020)
Zhengkun Tian, Jiangyan Yi, Ye Bai, Jianhua Tao, Shuai Zhang, Zhengqi Wen
Synchronous Transformers for end-to-end Speech Recognition. ICASSP (2020)
Shuai Zhang, Jiangyan Yi, Zhengkun Tian, Ye Bai, Jianhua Tao, Zhengqi Wen
Decoupling Pronunciation and Language for End-to-end Code-switching Automatic Speech Recognition. CoRR (2020)
Zhengkun Tian, Jiangyan Yi, Jianhua Tao, Ye Bai, Shuai Zhang, Zhengqi Wen
Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech Recognition. INTERSPEECH (2020)
Bocheng Zhao, Jianhua Tao, Minghao Yang, Zhengkun Tian, Cunhang Fan, Ye Bai
Deep imitator: Handwriting calligraphy imitation via deep attention networks. Pattern Recognit. 104 (2020)
Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengqi Wen, Cunhang Fan
A Public Chinese Dataset for Language Model Adaptation. J. Signal Process. Syst. 92 (8) (2020)
Jiangyan Yi, Jianhua Tao, Ye Bai, Zhengkun Tian, Cunhang Fan
Adversarial Transfer Learning for Punctuation Restoration. CoRR (2020)
Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Zhengqi Wen, Shuai Zhang
Listen Attentively, and Spell Once: Whole Sentence Generation via a Non-Autoregressive Architecture for Low-Latency Speech Recognition. CoRR (2020)
Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Ye Bai, Cunhang Fan
Focal Loss for Punctuation Prediction. INTERSPEECH (2020)
Jiangyan Yi, Jianhua Tao, Zhengqi Wen, Ye Bai
Language-Adversarial Transfer Learning for Low-Resource Speech Recognition. IEEE ACM Trans. Audio Speech Lang. Process. 27 (3) (2019)
Srikanth Gururajan, Ye Bai
Autonomous "Figure-8" Flights of a Quadcopter: Experimental Datasets. Data 4 (1) (2019)
Cunhang Fan, Bin Liu, Jianhua Tao, Jiangyan Yi, Zhengqi Wen, Ye Bai
Noise Prior Knowledge Learning for Speech Enhancement via Gated Convolutional Generative Adversarial Network. APSIPA (2019)
Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Zhengqi Wen, Shuai Zhang
Integrating Whole Context to Sequence-to-sequence Speech Recognition. CoRR (2019)
Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Zhengqi Wen
Learn Spelling from Teachers: Transferring Knowledge from Language Models to Sequence-to-Sequence Speech Recognition. INTERSPEECH (2019)
Zhengkun Tian, Jiangyan Yi, Ye Bai, Jianhua Tao, Shuai Zhang, Zhengqi Wen
Synchronous Transformers for End-to-End Speech Recognition. CoRR (2019)
Ye Bai
Research on the effect of psychological stress intervention in music students based on Diffie-Hellman key exchange algorithm. Clust. Comput. 22 (6) (2019)
Zhengkun Tian, Jiangyan Yi, Jianhua Tao, Ye Bai, Zhengqi Wen
Self-Attention Transducers for End-to-End Speech Recognition. INTERSPEECH (2019)
Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengqi Wen, Zhengkun Tian, Chenghao Zhao, Cunhang Fan
A Time Delay Neural Network with Shared Weight Self-Attention for Small-Footprint Keyword Spotting. INTERSPEECH (2019)
Zhengkun Tian, Jiangyan Yi, Jianhua Tao, Ye Bai, Zhengqi Wen
Self-Attention Transducers for End-to-End Speech Recognition. CoRR (2019)
Jiangyan Yi, Jianhua Tao, Ye Bai
Language-invariant Bottleneck Features from Adversarial End-to-end Acoustic Models for Low Resource Speech Recognition. ICASSP (2019)
Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Zhengqi Wen
Learn Spelling from Teachers: Transferring Knowledge from Language Models to Sequence-to-Sequence Speech Recognition. CoRR (2019)
Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengqi Wen, Bin Liu
Voice Activity Detection Based on Time-Delay Neural Networks. APSIPA (2019)
Haoxin Ma, Ye Bai, Jiangyan Yi, Jianhua Tao
Hypersphere Embedding and Additive Margin for Query-by-example Keyword Spotting. APSIPA (2019)
Cunhang Fan, Bin Liu, Jianhua Tao, Zhengqi Wen, Jiangyan Yi, Ye Bai
Utterance-level Permutation Invariant Training with Discriminative Learning for Single Channel Speech Separation. ISCSLP (2018)
Ye Bai, Jianhua Tao, Jiangyan Yi, Zhengqi Wen, Cunhang Fan
CLMAD: A Chinese Language Model Adaptation Dataset. ISCSLP (2018)
Jiangyan Yi, Jianhua Tao, Zhengqi Wen, Ye Bai
Adversarial Multilingual Training for Low-Resource Speech Recognition. ICASSP (2018)
Ye Bai, Jiangyan Yi, Hao Ni, Zhengqi Wen, Bin Liu, Ya Li, Jianhua Tao
End-to-end keywords spotting based on connectionist temporal classification for Mandarin. ISCSLP (2016)
Ye Bai, Xueli Sheng, Chunyan Sun, Jin Han
Study of a speech coding algorithm based on a contact conduction transmitter in a complicated water area. WUWNet (2013)
Yunliang Yu, Tingting Zhang, Ye Bai, Jianqiang Wang
Method of the Road Lines Recognition in the Maps of Digital Material Based on Improvemented BP Neural Network. CSISE (1) (2011)
Yunliang Yu, Ye Bai, Tingting Zhang, Jianqiang Wang
The Heavy Mineral Analysis Based on Immune Self-organizing Neural Network. CSISE (1) (2011)