Xie Chen

Publication Activity (10 Years)

Years Active: 2022-2024
Publications (10 Years): 65

Top Topics

Prosodic Features

Speech Recognition

Speech Processing

Top Venues

IEEE ACM Trans. Audio Speech Lang. Process.

Publications

Chenpeng Du, Yiwei Guo, Feiyu Shen, Zhijun Liu, Zheng Liang, Xie Chen, Shuai Wang, Hui Zhang, Kai Yu
UniCATS: A Unified Context-Aware Text-to-Speech Framework with Contextual VQ-Diffusion and Vocoding. AAAI (2024)
Junjie Li, Yiwei Guo, Xie Chen, Kai Yu
SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention. ICASSP (2024)
Xun Gong, Yu Wu, Jinyu Li, Shujie Liu, Rui Zhao, Xie Chen, Yanmin Qian
Advanced Long-Content Speech Recognition With Factorized Neural Transducer. CoRR (2024)
Sen Liu, Yiwei Guo, Xie Chen, Kai Yu
StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations. CoRR (2024)
Hankun Wang, Chenpeng Du, Yiwei Guo, Shuai Wang, Xie Chen, Kai Yu
Attention-Constrained Inference for Robust Decoder-Only Text-to-Speech. CoRR (2024)
Yakun Song, Zhuo Chen, Xiaofei Wang, Ziyang Ma, Guanrou Yang, Xie Chen
TacoLM: GaTed Attention Equipped Codec Language Model are Efficient Zero-Shot Text to Speech Synthesizers. CoRR (2024)
Ziyang Ma, Zhisheng Zheng, Jiaxin Ye, Jinchao Li, Zhifu Gao, Shiliang Zhang, Xie Chen
emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation. ACL (Findings) (2024)
Yifan Yang, Zheshu Song, Jianheng Zhuo, Mingyu Cui, Jinpeng Li, Bo Yang, Yexing Du, Ziyang Ma, Xunying Liu, Ziyuan Wang, Ke Li, Shuai Fan, Kai Yu, Wei-Qiang Zhang, Guoguo Chen, Xie Chen
GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement. CoRR (2024)
Ziyang Ma, Wen Wu, Zhisheng Zheng, Yiwei Guo, Qian Chen, Shiliang Zhang, Xie Chen
Leveraging Speech PTM, Text LLM, And Emotional TTS For Speech Emotion Recognition. ICASSP (2024)
Bohan Li, Feiyu Shen, Yiwei Guo, Shuai Wang, Xie Chen, Kai Yu
On the Effectiveness of Acoustic BPE in Decoder-Only TTS. CoRR (2024)
Tao Liu, Feilong Chen, Shuai Fan, Chenpeng Du, Qi Chen, Xie Chen, Kai Yu
AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding. CoRR (2024)
Mingjie Chen, Hezhao Zhang, Yuanchao Li, Jiachen Luo, Wen Wu, Ziyang Ma, Peter Bell, Catherine Lai, Joshua D. Reiss, Lin Wang, Philip C. Woodland, Xie Chen, Huy Phan, Thomas Hain
1st Place Solution to Odyssey Emotion Recognition Challenge Task1: Tackling Class Imbalance Problem. Odyssey (2024)
Anbai Jiang, Bing Han, Zhiqiang Lv, Yufeng Deng, Wei-Qiang Zhang, Xie Chen, Yanmin Qian, Jia Liu, Pingyi Fan
AnoPatch: Towards Better Consistency in Machine Anomalous Sound Detection. CoRR (2024)
Feiyu Shen, Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
Acoustic BPE for Speech Generation with Discrete Tokens. ICASSP (2024)
Yiwei Guo, Chenrun Wang, Yifan Yang, Hankun Wang, Ziyang Ma, Chenpeng Du, Shuai Wang, Hanzheng Li, Shuai Fan, Hui Zhang, Xie Chen, Kai Yu
The X-LANCE Technical Report for Interspeech 2024 Speech Processing Using Discrete Speech Unit Challenge. CoRR (2024)
Bo Chen, Shoukang Hu, Qi Chen, Chenpeng Du, Ran Yi, Yanmin Qian, Xie Chen
GSTalker: Real-time Audio-Driven Talking Face Generation via Deformable Gaussian Splatting. CoRR (2024)
Zhisheng Zheng, Puyuan Peng, Ziyang Ma, Xie Chen, Eunsol Choi, David Harwath
BAT: Learning to Reason about Spatial Sounds with Large Language Models. CoRR (2024)
Zheng Lian, Haiyang Sun, Licai Sun, Zhuofan Wen, Siyuan Zhang, Shun Chen, Hao Gu, Jinming Zhao, Ziyang Ma, Xie Chen, Jiangyan Yi, Rui Liu, Kele Xu, Bin Liu, Erik Cambria, Guoying Zhao, Björn W. Schuller, Jianhua Tao
MER 2024: Semi-Supervised Learning, Noise Robustness, and Open-Vocabulary Multimodal Emotion Recognition. CoRR (2024)
Wenxi Chen, Yuzhe Liang, Ziyang Ma, Zhisheng Zheng, Xie Chen
EAT: Self-Supervised Pre-Training with Efficient Audio Transformer. CoRR (2024)
Ziyang Ma, Mingjie Chen, Hezhao Zhang, Zhisheng Zheng, Wenxi Chen, Xiquan Li, Jiaxin Ye, Xie Chen, Thomas Hain
EmoBox: Multilingual Multi-corpus Speech Emotion Recognition Toolkit and Benchmark. CoRR (2024)
Yakun Song, Zhuo Chen, Xiaofei Wang, Ziyang Ma, Xie Chen
ELLA-V: Stable Neural Codec Language Modeling with Alignment-guided Sequence Reordering. CoRR (2024)
Ziyang Ma, Guanrou Yang, Yifan Yang, Zhifu Gao, Jiaming Wang, Zhihao Du, Fan Yu, Qian Chen, Siqi Zheng, Shiliang Zhang, Xie Chen
An Embarrassingly Simple Approach for LLM with Strong ASR Capacity. CoRR (2024)
Xuankai Chang, Jiatong Shi, Jinchuan Tian, Yuning Wu, Yuxun Tang, Yihan Wu, Shinji Watanabe, Yossi Adi, Xie Chen, Qin Jin
The Interspeech 2024 Challenge on Speech Processing Using Discrete Units. CoRR (2024)
Yifan Yang, Feiyu Shen, Chenpeng Du, Ziyang Ma, Kai Yu, Daniel Povey, Xie Chen
Towards Universal Speech Discrete Tokens: A Case Study for ASR and TTS. ICASSP (2024)
Yiwei Guo, Chenpeng Du, Ziyang Ma, Xie Chen, Kai Yu
VoiceFlow: Efficient Text-To-Speech with Rectified Flow Matching. ICASSP (2024)
Guanrou Yang, Ziyang Ma, Fan Yu, Zhifu Gao, Shiliang Zhang, Xie Chen
MaLa-ASR: Multimedia-Assisted LLM-Based ASR. CoRR (2024)
Xun Gong, Yu Wu, Jinyu Li, Shujie Liu, Rui Zhao, Xie Chen, Yanmin Qian
Advanced Long-Content Speech Recognition With Factorized Neural Transducer. IEEE ACM Trans. Audio Speech Lang. Process. 32 (2024)
Mingjie Chen, Hezhao Zhang, Yuanchao Li, Jiachen Luo, Wen Wu, Ziyang Ma, Peter Bell, Catherine Lai, Joshua D. Reiss, Lin Wang, Philip C. Woodland, Xie Chen, Huy Phan, Thomas Hain
1st Place Solution to Odyssey Emotion Recognition Challenge Task1: Tackling Class Imbalance Problem. CoRR (2024)
Sen Liu, Yiwei Guo, Xie Chen, Kai Yu
StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations. ICASSP (2024)
Zheng Liang, Zheshu Song, Ziyang Ma, Chenpeng Du, Kai Yu, Xie Chen
Improving Code-Switching and Named Entity Recognition in ASR with Speech Editing based Data Augmentation. CoRR (2023)
Xun Gong, Yu Wu, Jinyu Li, Shujie Liu, Rui Zhao, Xie Chen, Yanmin Qian
LongFNT: Long-Form Speech Recognition with Factorized Neural Transducer. ICASSP (2023)
Ziyang Ma, Wen Wu, Zhisheng Zheng, Yiwei Guo, Qian Chen, Shiliang Zhang, Xie Chen
Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion Recognition. CoRR (2023)
Qi Chen, Ziyang Ma, Tao Liu, Xu Tan, Qu Lu, Xie Chen, Kai Yu
Improving Few-Shot Learning for Talking Face System with TTS Data Augmentation. CoRR (2023)
Hanglei Zhang, Yiwei Guo, Sen Liu, Xie Chen, Kai Yu
Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations. CoRR (2023)
Qi Chen, Ziyang Ma, Tao Liu, Xu Tan, Qu Lu, Kai Yu, Xie Chen
Improving Few-Shot Learning for Talking Face System with TTS Data Augmentation. ICASSP (2023)
Xun Gong, Wei Wang, Hang Shao, Xie Chen, Yanmin Qian
Factorized AED: Factorized Attention-Based Encoder-Decoder for Text-Only Domain Adaptive ASR. ICASSP (2023)
Zheng Liang, Zheshu Song, Ziyang Ma, Chenpeng Du, Kai Yu, Xie Chen
Improving Code-Switching and Name Entity Recognition in ASR with Speech Editing based Data Augmentation. INTERSPEECH (2023)
Chenpeng Du, Yiwei Guo, Xie Chen, Kai Yu
Speaker Adaptive Text-to-Speech With Timbre-Normalized Vector-Quantized Feature. IEEE ACM Trans. Audio Speech Lang. Process. 31 (2023)
Ziyang Ma, Zhisheng Zheng, Changli Tang, Yujin Wang, Xie Chen
MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets. INTERSPEECH (2023)
Zhisheng Zheng, Ziyang Ma, Yu Wang, Xie Chen
Unsupervised Active Learning: Optimizing Labeling Cost-Effectiveness for Automatic Speech Recognition. INTERSPEECH (2023)
Guanrou Yang, Ziyang Ma, Zhisheng Zheng, Yakun Song, Zhikang Niu, Xie Chen
Fast-HuBERT: An Efficient Training Framework for Self-Supervised Speech Representation Learning. CoRR (2023)
Yiwei Guo, Chenpeng Du, Ziyang Ma, Xie Chen, Kai Yu
VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching. CoRR (2023)
Sen Liu, Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech. CoRR (2023)
Yifan Yang, Feiyu Shen, Chenpeng Du, Ziyang Ma, Kai Yu, Daniel Povey, Xie Chen
Towards Universal Speech Discrete Tokens: A Case Study for ASR and TTS. CoRR (2023)
Ziyang Ma, Zhisheng Zheng, Guanrou Yang, Yu Wang, Chao Zhang, Xie Chen
Pushing the Limits of Unsupervised Unit Discovery for SSL Speech Representation. INTERSPEECH (2023)
Guanrou Yang, Ziyang Ma, Zhisheng Zheng, Yakun Song, Zhikang Niu, Xie Chen
Fast-Hubert: an Efficient Training Framework for Self-Supervised Speech Representation Learning. ASRU (2023)
Xie Chen, Ziyang Ma, Changli Tang, Yujin Wang, Zhisheng Zheng
Front-End Adapter: Adapting Front-End Input of Speech based Self-Supervised Learning for Speech Recognition. CoRR (2023)
Ziyang Ma, Zhisheng Zheng, Jiaxin Ye, Jinchao Li, Zhifu Gao, Shiliang Zhang, Xie Chen
emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation. CoRR (2023)
Zhisheng Zheng, Ziyang Ma, Yu Wang, Xie Chen
Unsupervised Active Learning: Optimizing Labeling Cost-Effectiveness for Automatic Speech Recognition. CoRR (2023)
Sen Liu, Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech. INTERSPEECH (2023)
Ziyang Ma, Zhisheng Zheng, Guanrou Yang, Yu Wang, Chao Zhang, Xie Chen
Pushing the Limits of Unsupervised Unit Discovery for SSL Speech Representation. CoRR (2023)
Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
Emodiff: Intensity Controllable Emotional Text-to-Speech with Soft-Label Guidance. ICASSP (2023)
Chenpeng Du, Qi Chen, Tianyu He, Xu Tan, Xie Chen, Kai Yu, Sheng Zhao, Jiang Bian
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder. ACM Multimedia (2023)
Yifan Yang, Xiaoyu Yang, Liyong Guo, Zengwei Yao, Wei Kang, Fangjun Kuang, Long Lin, Xie Chen, Daniel Povey
Blank-regularized CTC for Frame Skipping in Neural Transducer. INTERSPEECH (2023)
Chenpeng Du, Qi Chen, Tianyu He, Xu Tan, Xie Chen, Kai Yu, Sheng Zhao, Jiang Bian
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder. CoRR (2023)
Junzhe Liu, Jianwei Yu, Xie Chen
Improved Factorized Neural Transducer Model For text-only Domain Adaptation. CoRR (2023)
Mingyu Cui, Jiawen Kang, Jiajun Deng, Xi Yin, Yutao Xie, Xie Chen, Xunying Liu
Towards Effective and Compact Contextual Representation for Conformer Transducer Speech Recognition Systems. INTERSPEECH (2023)
Xie Chen, Ziyang Ma, Changli Tang, Yujin Wang, Zhisheng Zheng
Front-End Adapter: Adapting Front-End Input of Speech Based Self-Supervised Learning for Speech Recognition. ICASSP (2023)
Mingyu Cui, Jiawen Kang, Jiajun Deng, Xi Yin, Yutao Xie, Xie Chen, Xunying Liu
Towards Effective and Compact Contextual Representation for Conformer Transducer Speech Recognition Systems. CoRR (2023)
Feiyu Shen, Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
Acoustic BPE for Speech Generation with Discrete Tokens. CoRR (2023)
Chenpeng Du, Yiwei Guo, Feiyu Shen, Zhijun Liu, Zheng Liang, Xie Chen, Shuai Wang, Hui Zhang, Kai Yu
UniCATS: A Unified Context-Aware Text-to-Speech Framework with Contextual VQ-Diffusion and Vocoding. CoRR (2023)
Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
EmoDiff: Intensity Controllable Emotional Text-to-Speech with Soft-Label Guidance. CoRR (2022)
Ziyang Ma, Zhisheng Zheng, Changli Tang, Yujin Wang, Xie Chen
MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets. CoRR (2022)
Changli Tang, Yujin Wang, Xie Chen, Wei-Qiang Zhang
Exploring Effective Fusion Algorithms for Speech Based Self-Supervised Learning Models. CoRR (2022)
Xun Gong, Yu Wu, Jinyu Li, Shujie Liu, Rui Zhao, Xie Chen, Yanmin Qian
LongFNT: Long-form Speech Recognition with Factorized Neural Transducer. CoRR (2022)