Yang Ai

Publication Activity (10 Years)

Years Active: 2009-2024
Publications (10 Years): 58

Top Topics

Watermarking Algorithm

Speech Synthesis

Error Compensation

Top Venues

IEEE ACM Trans. Audio Speech Lang. Process.

Publications

Hui-Peng Du, Ye-Xin Lu, Yang Ai, Zhen-Hua Ling
BiVocoder: A Bidirectional Neural Vocoder Integrating Feature Extraction and Waveform Generation. CoRR (2024)
Ye-Xin Lu, Yang Ai, Hui-Peng Du, Zhen-Hua Ling
Towards High-Quality and Efficient Speech Bandwidth Extension with Parallel Amplitude and Phase Prediction. CoRR (2024)
Hengyu Li, Kangdi Mei, Zhaoci Liu, Yang Ai, Liping Chen, Jie Zhang, Zhenhua Ling
Refining Self-Supervised Learnt Speech Representation using Brain Activations. CoRR (2024)
Yang Ai, Zhen-Hua Ling
Low-Latency Neural Speech Phase Prediction Based on Parallel Estimation Architecture and Anti-Wrapping Losses for Speech Generation Tasks. IEEE ACM Trans. Audio Speech Lang. Process. 32 (2024)
Kangdi Mei, Zhaoci Liu, Hui-Peng Du, Hengyu Li, Yang Ai, Liping Chen, Zhenhua Ling
Considering Temporal Connection between Turns for Conversational Speech Synthesis. ICASSP (2024)
Yang Ai, Xiao-Hang Jiang, Ye-Xin Lu, Hui-Peng Du, Zhen-Hua Ling
APCodec: A Neural Audio Codec with Parallel Amplitude and Phase Spectrum Encoding and Decoding. CoRR (2024)
Ye-Xin Lu, Yang Ai, Zheng-Yan Sheng, Zhen-Hua Ling
Multi-Stage Speech Bandwidth Extension with Flexible Sampling Rate Control. CoRR (2024)
Yang Ai, Zhen-Hua Ling
Low-Latency Neural Speech Phase Prediction based on Parallel Estimation Architecture and Anti-Wrapping Losses for Speech Generation Tasks. CoRR (2024)
Zhengyan Sheng, Yang Ai, Li-Juan Liu, Jia Pan, Zhen-Hua Ling
Voice Attribute Editing with Text Prompt. CoRR (2024)
Rui-Chen Zheng, Yang Ai, Zhen-Hua Ling
Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement. IEEE ACM Trans. Audio Speech Lang. Process. 32 (2024)
Yang Ai, Xiao-Hang Jiang, Ye-Xin Lu, Hui-Peng Du, Zhen-Hua Ling
APCodec: A Neural Audio Codec With Parallel Amplitude and Phase Spectrum Encoding and Decoding. IEEE ACM Trans. Audio Speech Lang. Process. 32 (2024)
Yang Ai, Zhen-Hua Ling
Neural Speech Phase Prediction Based on Parallel Estimation Architecture and Anti-Wrapping Losses. ICASSP (2023)
Ye-Xin Lu, Yang Ai, Zhen-Hua Ling
Source-Filter-Based Generative Adversarial Neural Vocoder for High Fidelity Speech Synthesis. CoRR (2023)
Zhengyan Sheng, Yang Ai, Yan-Nian Chen, Zhen-Hua Ling
Face-Driven Zero-Shot Voice Conversion with Memory-based Face-Voice Alignment. CoRR (2023)
Yang Ai, Yinhao Li, Rahul Kumar Jain, Yen-Wei Chen
A Self-Attention Based Fusion Model of Radiomics and Deep Features for Early Recurrence Prediction in NSCLC. GCCE (2023)
Rui-Chen Zheng, Yang Ai, Zhen-Hua Ling
Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement through Knowledge Distillation. INTERSPEECH (2023)
Zhengyan Sheng, Yang Ai, Zhen-Hua Ling
Zero-Shot Personalized Lip-To-Speech Synthesis with Face Image Based Voice Control. ICASSP (2023)
Yang Ai, Xi Yang
A Dynamic Network for Efficient Point Cloud Registration. CoRR (2023)
Jing Liu, Yang Ai, Chao Huang, Fang Wang, Yingying Xu, Titinunt Kitrungrotsakul, Jing Ma, Lanfen Lin, Yen-Wei Chen, Jingsong Li
CMIR: A Unified Cross-Modality Framework for Preoperative Accurate Prediction of Microvascular Invasion in Hepatocellular Carcinoma. MedInfo (2023)
Zheng-Yan Sheng, Yang Ai, Zhen-Hua Ling
Zero-shot personalized lip-to-speech synthesis with face image based voice control. CoRR (2023)
Yang Ai, Zhen-Hua Ling
APNet: An All-Frame-Level Neural Vocoder Incorporating Direct Prediction of Amplitude and Phase Spectra. CoRR (2023)
Yang Ai, Zhen-Hua Ling
APNet: An All-Frame-Level Neural Vocoder Incorporating Direct Prediction of Amplitude and Phase Spectra. IEEE ACM Trans. Audio Speech Lang. Process. 31 (2023)
Haochen Wu, Zhuhai Li, Luzhen Xu, Zhentao Zhang, Wenting Zhao, Bin Gu, Yang Ai, Yexin Lu, Jie Zhang, Zhenhua Ling, Wu Guo
The USTC-NERCSLIP System for the Track 1.2 of Audio Deepfake Detection (ADD 2023) Challenge. DADA@IJCAI (2023)
Rui-Chen Zheng, Yang Ai, Zhen-Hua Ling
Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement through Knowledge Distillation. CoRR (2023)
Ye-Xin Lu, Yang Ai, Zhen-Hua Ling
Explicit Estimation of Magnitude and Phase Spectra in Parallel for High-Quality Speech Enhancement. CoRR (2023)
Yang Ai, Ye-Xin Lu, Zhen-Hua Ling
Long-frame-shift Neural Speech Phase Prediction with Spectral Continuity Enhancement and Interpolation Error Compensation. CoRR (2023)
Rui-Chen Zheng, Yang Ai, Zhen-Hua Ling
Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement. CoRR (2023)
Ye-Xin Lu, Yang Ai, Zhen-Hua Ling
MP-SENet: A Speech Enhancement Model with Parallel Denoising of Magnitude and Phase Spectra. INTERSPEECH (2023)
Jing Liu, Jing Ma, Yang Ai, Jiayue Zhao, Fang Wang, Lanfen Lin, Ruofeng Tong, Yen-Wei Chen, Jingsong Li
Vision-Guided Attention-Enhanced Network for Predicting Microvascular Invasion in Hepatocellular Carcinoma. EMBC (2023)
Yang Ai, Ye-Xin Lu, Zhen-Hua Ling
Long-Frame-Shift Neural Speech Phase Prediction With Spectral Continuity Enhancement and Interpolation Error Compensation. IEEE Signal Process. Lett. 30 (2023)
Rui-Chen Zheng, Yang Ai, Zhen-Hua Ling
Speech Reconstruction from Silent Tongue and Lip Articulation by Pseudo Target Generation and Domain Adversarial Training. ICASSP (2023)
Zhengyan Sheng, Yang Ai, Yan-Nian Chen, Zhen-Hua Ling
Face-Driven Zero-Shot Voice Conversion with Memory-based Face-Voice Alignment. ACM Multimedia (2023)
Jing Liu, Yulin Yang, Yang Ai, Titinunt Kitrungrotsakul, Fang Wang, Lanfen Lin, Ruofeng Tong, Yen-Wei Chen, Jingsong Li
MVI-Wise GAN: Synthetic MRI to Improve Microvascular Invasion Prediction in Hepatocellular Carcinoma. EMBC (2023)
Yang Ai, Panyanat Aonpong, Weibin Wang, Yinhao Li, Yutaro Iwamoto, Xianhua Han, Yen-Wei Chen
Residual Multilayer Perceptrons for Genotype-Guided Recurrence Prediction of Non-Small Cell Lung Cancer. EMBC (2022)
Zilong Liu, Jingbing Li, Yang Ai, Yuancai Zheng, Jing Liu
A robust encryption watermarking algorithm for medical images based on ridgelet-DCT and THM double chaos. J. Cloud Comput. 11 (2022)
Yang Ai, Zhen-Hua Ling, Wei-Lu Wu, Ang Li
Denoising-and-Dereverberation Hierarchical Neural Vocoder for Statistical Parametric Speech Synthesis. IEEE ACM Trans. Audio Speech Lang. Process. 30 (2022)
Yang Ai, Zhen-Hua Ling
Neural Speech Phase Prediction based on Parallel Estimation Architecture and Anti-Wrapping Losses. CoRR (2022)
Kun Shao, Junan Yang, Yang Ai, Hui Liu, Yu Zhang
BDDR: An Effective Defense Against Textual Backdoor Attacks. Comput. Secur. 110 (2021)
Yang Ai, Haoyu Li, Xin Wang, Junichi Yamagishi, Zhen-Hua Ling
Denoising-and-Dereverberation Hierarchical Neural Vocoder for Robust Waveform Generation. SLT (2021)
Chang Liu, Yang Ai, Zhenhua Ling
Phase Spectrum Recovery for Enhancing Low-Quality Speech Captured by Laser Microphones. ISCSLP (2021)
Haoyu Li, Yang Ai, Junichi Yamagishi
Enhancing Low-Quality Voice Recordings Using Disentangled Channel Factor and Neural Waveform Model. SLT (2021)
Yang Ai, Zhen-Hua Ling
Knowledge-and-Data-Driven Amplitude Spectrum Prediction for Hierarchical Neural Vocoders. INTERSPEECH (2020)
Jing Liu, Jixin Ma, Jingbing Li, Mengxing Huang, Naveed Sadiq, Yang Ai
Robust Watermarking Algorithm for Medical Volume Data in Internet of Medical Things. IEEE Access 8 (2020)
Qiuchen Huang, Yang Ai, Zhenhua Ling
Online Speaker Adaptation for WaveNet-based Neural Vocoders. APSIPA (2020)
Yang Ai, Xin Wang, Junichi Yamagishi, Zhen-Hua Ling
Reverberation Modeling for Source-Filter-based Neural Vocoder. CoRR (2020)
Yang Ai, Zhen-Hua Ling
Knowledge-and-Data-Driven Amplitude Spectrum Prediction for Hierarchical Neural Vocoders. CoRR (2020)
Haoyu Li, Yang Ai, Junichi Yamagishi
Enhancing Low-Quality Voice Recordings Using Disentangled Channel Factor and Neural Waveform Model. CoRR (2020)
Yang Ai, Zhen-Hua Ling
A Neural Vocoder With Hierarchical Generation of Amplitude and Phase Spectra for Statistical Parametric Speech Synthesis. IEEE ACM Trans. Audio Speech Lang. Process. 28 (2020)
Yang Ai, Xin Wang, Junichi Yamagishi, Zhen-Hua Ling
Reverberation Modeling for Source-Filter-Based Neural Vocoder. INTERSPEECH (2020)
Yang Ai, Haoyu Li, Xin Wang, Junichi Yamagishi, Zhen-Hua Ling
Denoising-and-Dereverberation Hierarchical Neural Vocoder for Robust Waveform Generation. CoRR (2020)
Yuan-Hao Yi, Yang Ai, Zhen-Hua Ling, Li-Rong Dai
Singing Voice Synthesis Using Deep Autoregressive Neural Networks for Acoustic Modeling. CoRR (2019)
Jing Liu, Jingbing Li, Kun Zhang, Uzair Aslam Bhatti, Yang Ai
Zero-Watermarking Algorithm for Medical Images Based on Dual-Tree Complex Wavelet Transform and Discrete Cosine Transform. J. Medical Imaging Health Informatics 9 (1) (2019)
Yang Ai, Zhen-Hua Ling
A Neural Vocoder with Hierarchical Generation of Amplitude and Phase Spectra for Statistical Parametric Speech Synthesis. CoRR (2019)
Yang Ai, Jing-Xuan Zhang, Liang Chen, Zhen-Hua Ling
Dnn-based Spectral Enhancement for Neural Waveform Generators with Low-bit Quantization. ICASSP (2019)
Yuan-Hao Yi, Yang Ai, Zhen-Hua Ling, Li-Rong Dai
Singing Voice Synthesis Using Deep Autoregressive Neural Networks for Acoustic Modeling. INTERSPEECH (2019)
Zhen-Hua Ling, Yang Ai, Yu Gu, Li-Rong Dai
Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth Extension. CoRR (2018)
Zhen-Hua Ling, Yang Ai, Yu Gu, Li-Rong Dai
Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth Extension. IEEE ACM Trans. Audio Speech Lang. Process. 26 (5) (2018)
Yang Ai, Hong-Chuan Wu, Zhen-Hua Ling
Samplernn-Based Neural Vocoder for Statistical Parametric Speech Synthesis. ICASSP (2018)
Hao Xu, Changhai Zhang, Yang Ai, Ziwen Wang, Zhan-Shan Li
An Ontology-Based Platform for Scientific Writing and Publishing. FGIT (2010)
Kun Wang, Zhan-Shan Li, Yang Ai, Yonggang Zhang
Computing Minimal Diagnosis with Binary Decision Diagrams Algorithm. FSKD (1) (2009)