Junyi Ao

Publication Activity (10 Years)

Years Active: 2021-2024
Publications (10 Years): 22

Top Topics

Speaker Recognition

Language Processing

Wyner Ziv Video Coding

Top Venues

IEEE Signal Process. Lett.

Publications

Junyi Ao, Yuancheng Wang, Xiaohai Tian, Dekun Chen, Jun Zhang, Lu Lu, Yuxuan Wang, Haizhou Li, Zhizheng Wu
SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words. CoRR (2024)
Duo Ma, Xianghu Yue, Junyi Ao, Xiaoxue Gao, Haizhou Li
Text-Guided HuBERT: Self-Supervised Speech Pre-Training via Generative Adversarial Networks. IEEE Signal Process. Lett. 31 (2024)
Junyi Ao, Mehmet Sinan Yildirim, Meng Ge, Shuai Wang, Ruijie Tao, Yanmin Qian, Liqun Deng, Longshuai Xiao, Haizhou Li
USED: Universal Speaker Extraction and Diarization. CoRR (2023)
Chutong Meng, Junyi Ao, Tom Ko, Mingxuan Wang, Haizhou Li
CoBERT: Self-Supervised Speech Representation Learning Through Code Representation Learning. INTERSPEECH (2023)
Xianghu Yue, Junyi Ao, Xiaoxue Gao, Haizhou Li
Token2vec: A Joint Self-Supervised Pre-Training Framework Using Unpaired Speech and Text. ICASSP (2023)
Meng Ge, Yizhou Peng, Yidi Jiang, Jingru Lin, Junyi Ao, Mehmet Sinan Yildirim, Shuai Wang, Haizhou Li, Mengling Feng
The NUS-HLT System for ICASSP2024 ICMC-ASR Grand Challenge. CoRR (2023)
Jingru Lin, Xianghu Yue, Junyi Ao, Haizhou Li
Self-Supervised Acoustic Word Embedding Learning via Correspondence Transformer Encoder. INTERSPEECH (2023)
Junyi Ao, Ziqiang Zhang, Long Zhou, Shujie Liu, Haizhou Li, Tom Ko, Lirong Dai, Jinyu Li, Yao Qian, Furu Wei
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data. INTERSPEECH (2022)
Rui Wang, Qibing Bai, Junyi Ao, Long Zhou, Zhixiang Xiong, Zhihua Wei, Yu Zhang, Tom Ko, Haizhou Li
LightHuBERT: Lightweight and Configurable Speech Representation Learning with Once-for-All Hidden-Unit BERT. CoRR (2022)
Rui Wang, Junyi Ao, Long Zhou, Shujie Liu, Zhihua Wei, Tom Ko, Qing Li, Yu Zhang
Multi-View Self-Attention Based Transformer for Speaker Recognition. ICASSP (2022)
Ziqiang Zhang, Long Zhou, Junyi Ao, Shujie Liu, Lirong Dai, Jinyu Li, Furu Wei
SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder Based Speech-Text Pre-training. CoRR (2022)
Xianghu Yue, Junyi Ao, Xiaoxue Gao, Haizhou Li
token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired Speech and Text. CoRR (2022)
Junyi Ao, Ziqiang Zhang, Long Zhou, Shujie Liu, Haizhou Li, Tom Ko, Lirong Dai, Jinyu Li, Yao Qian, Furu Wei
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data. CoRR (2022)
Junyi Ao, Rui Wang, Long Zhou, Chengyi Wang, Shuo Ren, Yu Wu, Shujie Liu, Tom Ko, Qing Li, Yu Zhang, Zhihua Wei, Yao Qian, Jinyu Li, Furu Wei
SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing. ACL (1) (2022)
Ziqiang Zhang, Junyi Ao, Long Zhou, Shujie Liu, Furu Wei, Jinyu Li
The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline Shared Task. CoRR (2022)
Rui Wang, Qibing Bai, Junyi Ao, Long Zhou, Zhixiang Xiong, Zhihua Wei, Yu Zhang, Tom Ko, Haizhou Li
LightHuBERT: Lightweight and Configurable Speech Representation Learning with Once-for-All Hidden-Unit BERT. INTERSPEECH (2022)
Ziqiang Zhang, Long Zhou, Junyi Ao, Shujie Liu, Lirong Dai, Jinyu Li, Furu Wei
SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder Based Speech-Text Pre-training. EMNLP (2022)
Ziqiang Zhang, Junyi Ao
The YiTrans Speech Translation System for IWSLT 2022 Offline Shared Task. IWSLT@ACL (2022)
Chutong Meng, Junyi Ao, Tom Ko, Mingxuan Wang, Haizhou Li
CoBERT: Self-Supervised Speech Representation Learning Through Code Representation Learning. CoRR (2022)
Junyi Ao, Tom Ko
Improving Attention-based End-to-end ASR by Incorporating an N-gram Neural Network. ISCSLP (2021)
Rui Wang, Junyi Ao, Long Zhou, Shujie Liu, Zhihua Wei, Tom Ko, Qing Li, Yu Zhang
Multi-View Self-Attention Based Transformer for Speaker Recognition. CoRR (2021)
Junyi Ao, Rui Wang, Long Zhou, Shujie Liu, Shuo Ren, Yu Wu, Tom Ko, Qing Li, Yu Zhang, Zhihua Wei, Yao Qian, Jinyu Li, Furu Wei
SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language Processing. CoRR (2021)