Xize Cheng

Publication Activity (10 Years)

Years Active: 2022-2024
Publications (10 Years): 33

Top Topics

Semantic Matching

Weakly Supervised

Text Generation

Top Venues

Publications

Xize Cheng, Rongjie Huang, Linjun Li, Zehan Wang, Tao Jin, Aoxiong Yin, Feiyang Chen, Xinyu Duan, Baoxing Huai, Zhou Zhao
TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head Translation. ACL (Findings) (2024)
Zhiqing Hong, Rongjie Huang, Xize Cheng, Yongqi Wang, Ruiqi Li, Fuming You, Zhou Zhao, Zhimeng Zhang
Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment. CoRR (2024)
Shengpeng Ji, Jialong Zuo, Minghui Fang, Siqi Zheng, Qian Chen, Wen Wang, Ziyue Jiang, Hai Huang, Xize Cheng, Rongjie Huang, Zhou Zhao
ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec. CoRR (2024)
Songju Lei, Xize Cheng, Mengjiao Lyu, Jianqiao Hu, Jintao Tan, Runlin Liu, Lingyu Xiong, Tao Jin, Xiandong Li, Zhou Zhao
Uni-Dubbing: Zero-Shot Speech Synthesis from Visual Articulation. ACL (1) (2024)
Zehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces. CoRR (2024)
Zehan Wang, Ziang Zhang, Xize Cheng, Rongjie Huang, Luping Liu, Zhenhui Ye, Haifeng Huang, Yang Zhao, Tao Jin, Peng Gao, Zhou Zhao
FreeBind: Free Lunch in Unified Multimodal Space via Knowledge Fusion. CoRR (2024)
Tao Jin, Wang Lin, Ye Wang, Linjun Li, Xize Cheng, Zhou Zhao
Rethinking the Multimodal Correlation of Multimodal Sequential Learning via Generalizable Attentional Results Alignment. ACL (1) (2024)
Huadai Liu, Rongjie Huang, Yang Liu, Hengyuan Cao, Jialei Wang, Xize Cheng, Siqi Zheng, Zhou Zhao
AudioLCM: Text-to-Audio Generation with Latent Consistency Models. CoRR (2024)
Huadai Liu, Rongjie Huang, Jinzheng He, Gang Sun, Ran Shen, Xize Cheng, Zhou Zhao
Wav2SQL: Direct Generalizable Speech-To-SQL Parsing. ACL (Findings) (2024)
Zhiqing Hong, Rongjie Huang, Xize Cheng, Yongqi Wang, Ruiqi Li, Fuming You, Zhou Zhao, Zhimeng Zhang
Text-to-Song: Towards Controllable Music Generation Incorporating Vocal and Accompaniment. ACL (1) (2024)
Minghui Fang, Shengpeng Ji, Jialong Zuo, Hai Huang, Yan Xia, Jieming Zhu, Xize Cheng, Xiaoda Yang, Wenrui Liu, Gang Wang, Zhenhua Dong, Zhou Zhao
ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling. CoRR (2024)
Rongjie Huang, Huadai Liu, Xize Cheng, Yi Ren, Linjun Li, Zhenhui Ye, Jinzheng He, Lichao Zhang, Jinglin Liu, Xiang Yin, Zhou Zhao
AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation. ACL (1) (2023)
Xize Cheng, Linjun Li, Tao Jin, Rongjie Huang, Wang Lin, Zehan Wang, Huangdai Liu, Ye Wang, Aoxiong Yin, Zhou Zhao
MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and Recognition. CoRR (2023)
Haifeng Huang, Zehan Wang, Rongjie Huang, Luping Liu, Xize Cheng, Yang Zhao, Tao Jin, Zhou Zhao
Chat-3D v2: Bridging 3D Scene and Large Language Models with Object Identifiers. CoRR (2023)
Wang Lin, Tao Jin, Wenwen Pan, Linjun Li, Xize Cheng, Ye Wang, Zhou Zhao
TAVT: Towards Transferable Audio-Visual Text Generation. ACL (1) (2023)
Rongjie Huang, Huadai Liu, Xize Cheng, Yi Ren, Linjun Li, Zhenhui Ye, Jinzheng He, Lichao Zhang, Jinglin Liu, Xiang Yin, Zhou Zhao
AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation. CoRR (2023)
Xize Cheng, Tao Jin, Linjun Li, Wang Lin, Xinyu Duan, Zhou Zhao
OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality Alignment. CoRR (2023)
Zehan Wang, Yang Zhao, Xize Cheng, Haifeng Huang, Jiageng Liu, Aoxiong Yin, Li Tang, Linjun Li, Yongqi Wang, Ziang Zhang, Zhou Zhao
Connecting Multi-modal Contrastive Representations. NeurIPS (2023)
Ye Wang, Tao Jin, Wang Lin, Xize Cheng, Linjun Li, Zhou Zhao
Semantic-conditioned Dual Adaptation for Cross-domain Query-based Visual Segmentation. ACL (Findings) (2023)
Xize Cheng, Tao Jin, Rongjie Huang, Linjun Li, Wang Lin, Zehan Wang, Ye Wang, Huadai Liu, Aoxiong Yin, Zhou Zhao
MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and Recognition. ICCV (2023)
Xize Cheng, Tao Jin, Linjun Li, Wang Lin, Xinyu Duan, Zhou Zhao
OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality Alignment. ACL (1) (2023)
Zehan Wang, Haifeng Huang, Yang Zhao, Linjun Li, Xize Cheng, Yichen Zhu, Aoxiong Yin, Zhou Zhao
Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual Grounding. ICCV (2023)
Huadai Liu, Rongjie Huang, Jinzheng He, Gang Sun, Ran Shen, Xize Cheng, Zhou Zhao
Wav2SQL: Direct Generalizable Speech-To-SQL Parsing. CoRR (2023)
Wang Lin, Tao Jin, Ye Wang, Wenwen Pan, Linjun Li, Xize Cheng, Zhou Zhao
Exploring Group Video Captioning with Efficient Relational Approximation. ICCV (2023)
Zehan Wang, Haifeng Huang, Yang Zhao, Linjun Li, Xize Cheng, Yichen Zhu, Aoxiong Yin, Zhou Zhao
3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding. EMNLP (2023)
Tao Jin, Xize Cheng, Linjun Li, Wang Lin, Ye Wang, Zhou Zhao
Rethinking Missing Modality Learning from a Decoding Perspective. ACM Multimedia (2023)
Xize Cheng, Rongjie Huang, Linjun Li, Tao Jin, Zehan Wang, Aoxiong Yin, Minglei Li, Xinyu Duan, Changpeng Yang, Zhou Zhao
TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head Translation. CoRR (2023)
Linjun Li, Tao Jin, Xize Cheng, Ye Wang, Wang Lin, Rongjie Huang, Zhou Zhao
Contrastive Token-Wise Meta-Learning for Unseen Performer Visual Temporal-Aligned Translation. ACL (Findings) (2023)
Zehan Wang, Haifeng Huang, Yang Zhao, Linjun Li, Xize Cheng, Yichen Zhu, Aoxiong Yin, Zhou Zhao
Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual Grounding. CoRR (2023)
Zehan Wang, Haifeng Huang, Yang Zhao, Linjun Li, Xize Cheng, Yichen Zhu, Aoxiong Yin, Zhou Zhao
3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding. CoRR (2023)
Zehan Wang, Yang Zhao, Xize Cheng, Haifeng Huang, Jiageng Liu, Li Tang, Linjun Li, Yongqi Wang, Aoxiong Yin, Ziang Zhang, Zhou Zhao
Connecting Multi-modal Contrastive Representations. CoRR (2023)
Ye Wang, Wang Lin, Shengyu Zhang, Tao Jin, Linjun Li, Xize Cheng, Zhou Zhao
Weakly-Supervised Spoken Video Grounding via Semantic Interaction Learning. ACL (1) (2023)
Luping Liu, Yi Ren, Xize Cheng, Zhou Zhao
Diffusion Denoising Process for Perceptron Bias in Out-of-distribution Detection. CoRR (2022)