Kai Yu

ORCID

Publication Activity (10 Years)

Years Active: 2005-2024
Publications (10 Years): 279

Top Venues

CoRR

ICASSP

INTERSPEECH

IEEE ACM Trans. Audio Speech Lang. Process.

Publications

Chenpeng Du, Yiwei Guo, Feiyu Shen, Zhijun Liu, Zheng Liang, Xie Chen, Shuai Wang, Hui Zhang, Kai Yu
UniCATS: A Unified Context-Aware Text-to-Speech Framework with Contextual VQ-Diffusion and Vocoding. AAAI (2024)
Junjie Li, Yiwei Guo, Xie Chen, Kai Yu
SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention. ICASSP (2024)
Hongshen Xu, Ruisheng Cao, Su Zhu, Sheng Jiang, Hanchong Zhang, Lu Chen, Kai Yu
A Birgat Model for Multi-Intent Spoken Language Understanding with Hierarchical Semantic Frames. ICASSP (2024)
Hongshen Xu, Zichen Zhu, Da Ma, Situo Zhang, Shuai Fan, Lu Chen, Kai Yu
Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback. CoRR (2024)
Ruiyang Zhou, Lu Chen, Kai Yu
Is LLM a Reliable Reviewer? A Comprehensive Evaluation of LLM on Automatic Paper Reviewing Tasks. LREC/COLING (2024)
Hongshen Xu, Lu Chen, Zihan Zhao, Da Ma, Ruisheng Cao, Zichen Zhu, Kai Yu
Hierarchical Multimodal Pre-training for Visually Rich Webpage Understanding. CoRR (2024)
Zeyu Xie, Baihan Li, Xuenan Xu, Mengyue Wu, Kai Yu
Enhancing Audio Generation Diversity with Visual Information. ICASSP (2024)
Sen Liu, Yiwei Guo, Xie Chen, Kai Yu
StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations. CoRR (2024)
Xuenan Xu, Ziyang Ma, Mengyue Wu, Kai Yu
Towards Weakly Supervised Text-to-Audio Grounding. CoRR (2024)
Hankun Wang, Chenpeng Du, Yiwei Guo, Shuai Wang, Xie Chen, Kai Yu
Attention-Constrained Inference for Robust Decoder-Only Text-to-Speech. CoRR (2024)
Yifan Yang, Zheshu Song, Jianheng Zhuo, Mingyu Cui, Jinpeng Li, Bo Yang, Yexing Du, Ziyang Ma, Xunying Liu, Ziyuan Wang, Ke Li, Shuai Fan, Kai Yu, Wei-Qiang Zhang, Guoguo Chen, Xie Chen
GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement. CoRR (2024)
Pingyue Zhang, Mengyue Wu, Kai Yu
Semantic-Enhanced Supervised Contrastive Learning. ICASSP (2024)
Hongshen Xu, Ruisheng Cao, Su Zhu, Sheng Jiang, Hanchong Zhang, Lu Chen, Kai Yu
A BiRGAT Model for Multi-intent Spoken Language Understanding with Hierarchical Semantic Frames. CoRR (2024)
Zihan Zhao, Da Ma, Lu Chen, Liangtai Sun, Zihao Li, Hongshen Xu, Zichen Zhu, Su Zhu, Shuai Fan, Guodong Shen, Xin Chen, Kai Yu
ChemDFM: Dialogue Foundation Model for Chemistry. CoRR (2024)
Hongchuan Zeng, Hongshen Xu, Lu Chen, Kai Yu
Multilingual Brain Surgeon: Large Language Models Can Be Compressed Leaving No Language behind. LREC/COLING (2024)
Bohan Li, Feiyu Shen, Yiwei Guo, Shuai Wang, Xie Chen, Kai Yu
On the Effectiveness of Acoustic BPE in Decoder-Only TTS. CoRR (2024)
Zeyu Xie, Baihan Li, Xuenan Xu, Zheng Liang, Kai Yu, Mengyue Wu
FakeSound: Deepfake General Audio Detection. CoRR (2024)
Hanchong Zhang, Ruisheng Cao, Hongshen Xu, Lu Chen, Kai Yu
CoE-SQL: In-Context Learning for Multi-Turn Text-to-SQL with Chain-of-Editions. NAACL-HLT (2024)
Tao Liu, Chenpeng Du, Shuai Fan, Feilong Chen, Kai Yu
DiffDub: Person-Generic Visual Dubbing Using Inpainting Renderer with Diffusion Auto-Encoder. ICASSP (2024)
Tao Liu, Feilong Chen, Shuai Fan, Chenpeng Du, Qi Chen, Xie Chen, Kai Yu
AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding. CoRR (2024)
Hongshen Xu, Lu Chen, Zihan Zhao, Da Ma, Ruisheng Cao, Zichen Zhu, Kai Yu
Hierarchical Multimodal Pre-training for Visually Rich Webpage Understanding. WSDM (2024)
Hongchuan Zeng, Hongshen Xu, Lu Chen, Kai Yu
Multilingual Brain Surgeon: Large Language Models Can be Compressed Leaving No Language Behind. CoRR (2024)
Hanqi Li, Lu Chen, Da Ma, Zijian Wu, Su Zhu, Kai Yu
Evolving Subnetwork Training for Large Language Models. CoRR (2024)
Feiyu Shen, Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
Acoustic BPE for Speech Generation with Discrete Tokens. ICASSP (2024)
Yiwei Guo, Chenrun Wang, Yifan Yang, Hankun Wang, Ziyang Ma, Chenpeng Du, Shuai Wang, Hanzheng Li, Shuai Fan, Hui Zhang, Xie Chen, Kai Yu
The X-LANCE Technical Report for Interspeech 2024 Speech Processing Using Discrete Speech Unit Challenge. CoRR (2024)
Da Ma, Lu Chen, Pengyu Wang, Hongshen Xu, Hanqi Li, Liangtai Sun, Su Zhu, Shuai Fan, Kai Yu
Sparsity-Accelerated Training for Large Language Models. ACL (Findings) (2024)
Da Ma, Lu Chen, Pengyu Wang, Hongshen Xu, Hanqi Li, Liangtai Sun, Su Zhu, Shuai Fan, Kai Yu
Sparsity-Accelerated Training for Large Language Models. CoRR (2024)
Zichen Zhu, Yang Xu, Lu Chen, Jingkai Yang, Yichuan Ma, Yiming Sun, Hailin Wen, Jiaqi Liu, Jinyu Cai, Yingzi Ma, Situo Zhang, Zihan Zhao, Liangtai Sun, Kai Yu
Multi: Multimodal Understanding Leaderboard with Text and Images. CoRR (2024)
Xuenan Xu, Zeyu Xie, Mengyue Wu, Kai Yu
Beyond the Status Quo: A Contemporary Survey of Advances and Challenges in Audio Captioning. IEEE ACM Trans. Audio Speech Lang. Process. 32 (2024)
Yutong Li, Lu Chen, Aiwei Liu, Kai Yu, Lijie Wen
ChatCite: LLM Agent with Human Workflow Guidance for Comparative Literature Summary. CoRR (2024)
Xuenan Xu, Xiaohang Xu, Zeyu Xie, Pingyue Zhang, Mengyue Wu, Kai Yu
A Detailed Audio-Text Data Simulation Pipeline Using Single-Event Sounds. ICASSP (2024)
Yifan Yang, Feiyu Shen, Chenpeng Du, Ziyang Ma, Kai Yu, Daniel Povey, Xie Chen
Towards Universal Speech Discrete Tokens: A Case Study for ASR and TTS. ICASSP (2024)
Yiwei Guo, Chenpeng Du, Ziyang Ma, Xie Chen, Kai Yu
VoiceFlow: Efficient Text-To-Speech with Rectified Flow Matching. ICASSP (2024)
Liangtai Sun, Yang Han, Zihan Zhao, Da Ma, Zhennan Shen, Baocai Chen, Lu Chen, Kai Yu
SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research. AAAI (2024)
Zeyu Xie, Baihan Li, Xuenan Xu, Mengyue Wu, Kai Yu
Enhancing Audio Generation Diversity with Visual Information. CoRR (2024)
Yiming Ai, Zhiwei He, Ziyin Zhang, Wenhong Zhu, Hongkun Hao, Kai Yu, Lingjun Chen, Rui Wang
Is Cognition and Action Consistent or Not: Investigating Large Language Model's Personality. CoRR (2024)
Chenpeng Du, Yiwei Guo, Hankun Wang, Yifan Yang, Zhikang Niu, Shuai Wang, Hui Zhang, Xie Chen, Kai Yu
VALL-T: Decoder-Only Generative Transducer for Robust and Decoding-Controllable Text-to-Speech. CoRR (2024)
Ruisheng Cao, Fangyu Lei, Haoyuan Wu, Jixuan Chen, Yeqiao Fu, Hongcheng Gao, Xinzhuang Xiong, Hanchong Zhang, Yuchen Mao, Wenjing Hu, Tianbao Xie, Hongshen Xu, Danyang Zhang, Sida Wang, Ruoxi Sun, Pengcheng Yin, Caiming Xiong, Ansong Ni, Qian Liu, Victor Zhong, Lu Chen, Kai Yu, Tao Yu
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? CoRR (2024)
Hanchong Zhang, Ruisheng Cao, Hongshen Xu, Lu Chen, Kai Yu
CoE-SQL: In-Context Learning for Multi-Turn Text-to-SQL with Chain-of-Editions. CoRR (2024)
Sen Liu, Yiwei Guo, Xie Chen, Kai Yu
StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations. ICASSP (2024)
Baihan Li, Zeyu Xie, Xuenan Xu, Yiwei Guo, Ming Yan, Ji Zhang, Kai Yu, Mengyue Wu
DiveSound: LLM-Assisted Automatic Taxonomy Construction for Diverse Audio Generation. CoRR (2024)
Xuenan Xu, Xiaohang Xu, Zeyu Xie, Pingyue Zhang, Mengyue Wu, Kai Yu
A Detailed Audio-Text Data Simulation Pipeline using Single-Event Sounds. CoRR (2024)
Zheng Liang, Zheshu Song, Ziyang Ma, Chenpeng Du, Kai Yu, Xie Chen
Improving Code-Switching and Named Entity Recognition in ASR with Speech Editing based Data Augmentation. CoRR (2023)
Hanchong Zhang, Jieyu Li, Lu Chen, Ruisheng Cao, Yunyan Zhang, Yu Huang, Yefeng Zheng, Kai Yu
CSS: A Large-scale Cross-schema Chinese Text-to-SQL Medical Dataset. CoRR (2023)
Junjie Li, Yiwei Guo, Xie Chen, Kai Yu
SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention. CoRR (2023)
Xuenan Xu, Mengyue Wu, Kai Yu
Investigating Pooling Strategies and Loss Functions for Weakly-Supervised Text-to-Audio Grounding via Contrastive Learning. ICASSP Workshops (2023)
Qi Chen, Ziyang Ma, Tao Liu, Xu Tan, Qu Lu, Xie Chen, Kai Yu
Improving Few-Shot Learning for Talking Face System with TTS Data Augmentation. CoRR (2023)
Sheng Jiang, Su Zhu, Ruisheng Cao, Qingliang Miao, Kai Yu
SPM: A Split-Parsing Method for Joint Multi-Intent Detection and Slot Filling. ACL (industry) (2023)
Ruisheng Cao, Hanchong Zhang, Hongshen Xu, Jieyu Li, Da Ma, Lu Chen, Kai Yu
ASTormer: An AST Structure-aware Transformer Decoder for Text-to-SQL. CoRR (2023)
Hanxue Zhang, Zeyu Xie, Xuenan Xu, Mengyue Wu, Kai Yu
Improving Audio Caption Fluency with Automatic Error Correction. CoRR (2023)
Zeyu Xie, Xuenan Xu, Mengyue Wu, Kai Yu
Enhance Temporal Relations in Audio Captioning with Sound Event Detection. INTERSPEECH (2023)
Hanglei Zhang, Yiwei Guo, Sen Liu, Xie Chen, Kai Yu
Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations. CoRR (2023)
Qi Chen, Ziyang Ma, Tao Liu, Xu Tan, Qu Lu, Kai Yu, Xie Chen
Improving Few-Shot Learning for Talking Face System with TTS Data Augmentation. ICASSP (2023)
Jieyu Li, Lu Chen, Ruisheng Cao, Su Zhu, Hongshen Xu, Zhi Chen, Hanchong Zhang, Kai Yu
On the Structural Generalization in Text-to-SQL. CoRR (2023)
Tao Liu, Chenpeng Du, Shuai Fan, Feilong Chen, Kai Yu
DiffDub: Person-generic Visual Dubbing Using Inpainting Renderer with Diffusion Auto-encoder. CoRR (2023)
Zhijun Liu, Yiwei Guo, Kai Yu
DiffVoice: Text-to-Speech with Latent Diffusion. ICASSP (2023)
Zheng Liang, Zheshu Song, Ziyang Ma, Chenpeng Du, Kai Yu, Xie Chen
Improving Code-Switching and Name Entity Recognition in ASR with Speech Editing based Data Augmentation. INTERSPEECH (2023)
Danyang Zhang, Lu Chen, Situo Zhang, Hongshen Xu, Zihan Zhao, Kai Yu
Large Language Models Are Semi-Parametric Reinforcement Learning Agents. NeurIPS (2023)
Ruisheng Cao, Lu Chen, Jieyu Li, Hanchong Zhang, Hongshen Xu, Wangyou Zhang, Kai Yu
A Heterogeneous Graph to Abstract Syntax Tree Framework for Text-to-SQL. IEEE Trans. Pattern Anal. Mach. Intell. 45 (11) (2023)
Chenpeng Du, Yiwei Guo, Xie Chen, Kai Yu
Speaker Adaptive Text-to-Speech With Timbre-Normalized Vector-Quantized Feature. IEEE ACM Trans. Audio Speech Lang. Process. 31 (2023)
Guangwei Li, Xuenan Xu, Lingfeng Dai, Mengyue Wu, Kai Yu
Diverse and Vivid Sound Generation from Text Descriptions. CoRR (2023)
Yiwei Guo, Chenpeng Du, Ziyang Ma, Xie Chen, Kai Yu
VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching. CoRR (2023)
Wenbin Jiang, Kai Yu
Speech Enhancement With Integration of Neural Homomorphic Synthesis and Spectral Masking. IEEE ACM Trans. Audio Speech Lang. Process. 31 (2023)
Hanchong Zhang, Ruisheng Cao, Lu Chen, Hongshen Xu, Kai Yu
ACT-SQL: In-Context Learning for Text-to-SQL with Automatically-Generated Chain-of-Thought. CoRR (2023)
Sen Liu, Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech. CoRR (2023)
Yifan Yang, Feiyu Shen, Chenpeng Du, Ziyang Ma, Kai Yu, Daniel Povey, Xie Chen
Towards Universal Speech Discrete Tokens: A Case Study for ASR and TTS. CoRR (2023)
Hanchong Zhang, Jieyu Li, Lu Chen, Ruisheng Cao, Yunyan Zhang, Yu Huang, Yefeng Zheng, Kai Yu
CSS: A Large-scale Cross-schema Chinese Text-to-SQL Medical Dataset. ACL (Findings) (2023)
Chenpeng Du, Yiwei Guo, Feiyu Shen, Kai Yu
Multi-Speaker Multi-Lingual VQTTS System for LIMMITS 2023 Challenge. CoRR (2023)
Hanchong Zhang, Ruisheng Cao, Lu Chen, Hongshen Xu, Kai Yu
ACT-SQL: In-Context Learning for Text-to-SQL with Automatically-Generated Chain-of-Thought. EMNLP (Findings) (2023)
Guangwei Li, Xuenan Xu, Lingfeng Dai, Mengyue Wu, Kai Yu
Diverse and Vivid Sound Generation from Text Descriptions. ICASSP (2023)
Wenbin Jiang, Fei Wen, Yifan Zhang, Kai Yu
UnSE: Unsupervised Speech Enhancement Using Optimal Transport. INTERSPEECH (2023)
Yiming Ai, Zhiwei He, Kai Yu, Rui Wang
TeCS: A Dataset and Benchmark for Tense Consistency of Machine Translation. CoRR (2023)
Sen Liu, Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech. INTERSPEECH (2023)
Jieyu Li, Lu Chen, Ruisheng Cao, Su Zhu, Hongshen Xu, Zhi Chen, Hanchong Zhang, Kai Yu
Exploring Schema Generalizability of Text-to-SQL. ACL (Findings) (2023)
Pingyue Zhang, Mengyue Wu, Kai Yu
ReCLR: Reference-Enhanced Contrastive Learning of Audio Representation for Depression Detection. INTERSPEECH (2023)
Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
Emodiff: Intensity Controllable Emotional Text-to-Speech with Soft-Label Guidance. ICASSP (2023)
Yiming Ai, Zhiwei He, Kai Yu, Rui Wang
TeCS: A Dataset and Benchmark for Tense Consistency of Machine Translation. ACL (2) (2023)
Chenpeng Du, Qi Chen, Tianyu He, Xu Tan, Xie Chen, Kai Yu, Sheng Zhao, Jiang Bian
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder. ACM Multimedia (2023)
Liangtai Sun, Yang Han, Zihan Zhao, Da Ma, Zhennan Shen, Baocai Chen, Lu Chen, Kai Yu
SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research. CoRR (2023)
Chenpeng Du, Yiwei Guo, Feiyu Shen, Kai Yu
Multi-Speaker Multi-Lingual VQTTS System for LIMMITS 2023 Challenge. ICASSP (2023)
Chenpeng Du, Qi Chen, Tianyu He, Xu Tan, Xie Chen, Kai Yu, Sheng Zhao, Jiang Bian
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder. CoRR (2023)
Zhi Chen, Yuncong Liu, Lu Chen, Su Zhu, Mengyue Wu, Kai Yu
OPAL: Ontology-Aware Pretrained Language Model for End-to-End Task-Oriented Dialogue. Trans. Assoc. Comput. Linguistics 11 (2023)
Danyang Zhang, Lu Chen, Situo Zhang, Hongshen Xu, Zihan Zhao, Kai Yu
Large Language Model Is Semi-Parametric Reinforcement Learning Agent. CoRR (2023)
Danyang Zhang, Lu Chen, Kai Yu
Mobile-Env: A Universal Platform for Training and Evaluation of Mobile Interaction. CoRR (2023)
Zeyu Xie, Xuenan Xu, Mengyue Wu, Kai Yu
Enhance Temporal Relations in Audio Captioning with Sound Event Detection. CoRR (2023)
Feiyu Shen, Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
Acoustic BPE for Speech Generation with Discrete Tokens. CoRR (2023)
Chenpeng Du, Yiwei Guo, Feiyu Shen, Zhijun Liu, Zheng Liang, Xie Chen, Shuai Wang, Hui Zhang, Kai Yu
UniCATS: A Unified Context-Aware Text-to-Speech Framework with Contextual VQ-Diffusion and Vocoding. CoRR (2023)
Tao Liu, Zhengyang Chen, Yanmin Qian, Kai Yu
Multi-Speaker End-to-End Multi-Modal Speaker Diarization System for the MISP 2022 Challenge. ICASSP (2023)
Guangwei Li, Xuenan Xu, Mengyue Wu, Kai Yu
Navigating Audio-Visual Event Detection Across Mismatched Modalities. ICASSP (2022)
Yu Xi, Tian Tan, Wangyou Zhang, Baochen Yang, Kai Yu
Text Adaptive Detection for Customizable Keyword Spotting. ICASSP (2022)
Siyu Lou, Xuenan Xu, Mengyue Wu, Kai Yu
Audio-text Retrieval in Context. CoRR (2022)
Xuenan Xu, Mengyue Wu, Kai Yu
Diversity-Controllable and Accurate Audio Captioning Based on Neural Condition. ICASSP (2022)
Zhi Chen, Yuncong Liu, Lu Chen, Su Zhu, Mengyue Wu, Kai Yu
OPAL: Ontology-Aware Pretrained Language Model for End-to-End Task-Oriented Dialogue. CoRR (2022)
Siyu Lou, Xuenan Xu, Mengyue Wu, Kai Yu
Audio-Text Retrieval in Context. ICASSP (2022)
Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
EmoDiff: Intensity Controllable Emotional Text-to-Speech with Soft-Label Guidance. CoRR (2022)
Wen Wu, Mengyue Wu, Kai Yu
Climate and Weather: Inspecting Depression Detection via Emotion Recognition. CoRR (2022)
Zhi Chen, Lu Chen, Bei Chen, Libo Qin, Yuncong Liu, Su Zhu, Jian-Guang Lou, Kai Yu
UniDU: Towards A Unified Generative Dialogue Understanding Framework. SIGDIAL (2022)
Zihan Zhao, Lu Chen, Ruisheng Cao, Hongshen Xu, Xingyu Chen, Kai Yu
TIE: Topological Information Enhanced Structural Reading Comprehension on Web Pages. CoRR (2022)
Chenpeng Du, Yiwei Guo, Xie Chen, Kai Yu
VQTTS: High-Fidelity Text-to-Speech Synthesis with Self-Supervised VQ Acoustic Feature. INTERSPEECH (2022)
Zhi Chen, Jijia Bao, Lu Chen, Yuncong Liu, Da Ma, Bei Chen, Mengyue Wu, Su Zhu, Jian-Guang Lou, Kai Yu
DialogZoo: Large-Scale Dialog-Oriented Task Learning. CoRR (2022)

Kai Yu.css-eqlu8i{font-size:small;padding-left:4px;}

Publication Activity (10 Years)

Top Topics

Top Venues

Kai Yu