Zhe Gan

Publication Activity (10 Years)

Years Active: 2009-2024
Publications (10 Years): 223

Top Venues

CoRR

CVPR

NeurIPS

AAAI

Publications

Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang
Ferret: Refer and Ground Anything Anywhere at Any Granularity. ICLR (2024)
Yusu Qian, Haotian Zhang, Yinfei Yang, Zhe Gan
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts. CoRR (2024)
Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao
Multimodal Foundation Models: From Specialists to General-Purpose Assistants. Found. Trends Comput. Graph. Vis. 16 (1-2) (2024)
Elmira Amirloo, Jean-Philippe Fauconnier, Christoph Roesmann, Christian Kerl, Rinu Boney, Yusu Qian, Zirui Wang, Afshin Dehghan, Yinfei Yang, Zhe Gan, Peter Grasch
Understanding Alignment in Multimodal LLMs: A Comprehensive Study. CoRR (2024)
Yusu Qian, Hanrong Ye, Jean-Philippe Fauconnier, Peter Grasch, Yinfei Yang, Zhe Gan
MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs. CoRR (2024)
Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs. CoRR (2024)
Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models. CoRR (2024)
Tsu-Jui Fu, Wenze Hu, Xianzhi Du, William Yang Wang, Yinfei Yang, Zhe Gan
Guiding Instruction-based Image Editing via Multimodal Large Language Models. ICLR (2024)
Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang
Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models. CoRR (2024)
Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Ankur Jain, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training. CoRR (2024)
Ajay Kumar Jaiswal, Zhe Gan, Xianzhi Du, Bowen Zhang, Zhangyang Wang, Yinfei Yang
Compressing LLMs: The Truth is Rarely Pure and Never Simple. ICLR (2024)
Jaemin Cho, Linjie Li, Zhengyuan Yang, Zhe Gan, Lijuan Wang, Mohit Bansal
Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation. CoRR (2023)
Xueyan Zou, Zi-Yi Dou, Jianwei Yang, Zhe Gan, Linjie Li, Chunyuan Li, Xiyang Dai, Harkirat Behl, Jianfeng Wang, Lu Yuan, Nanyun Peng, Lijuan Wang, Yong Jae Lee, Jianfeng Gao
Generalized Decoding for Pixel, Image, and Language. CVPR (2023)
Wentao Wu, Aleksei Timofeev, Chen Chen, Bowen Zhang, Kun Duan, Shuangning Liu, Yantao Zheng, Jonathon Shlens, Xianzhi Du, Zhe Gan, Yinfei Yang
MOFI: Learning Image Representations from Noisy Entity Annotated Images. CoRR (2023)
Yi-Lin Sung, Linjie Li, Kevin Lin, Zhe Gan, Mohit Bansal, Lijuan Wang
An Empirical Study of Multimodal Model Merging. EMNLP (Findings) (2023)
Tsu-Jui Fu, Wenze Hu, Xianzhi Du, William Yang Wang, Yinfei Yang, Zhe Gan
Guiding Instruction-based Image Editing via Multimodal Large Language Models. CoRR (2023)
Zhengyuan Yang, Jianfeng Wang, Zhe Gan, Linjie Li, Kevin Lin, Chenfei Wu, Nan Duan, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wang
ReCo: Region-Controlled Text-to-Image Generation. CVPR (2023)
Ajay Jaiswal, Zhe Gan, Xianzhi Du, Bowen Zhang, Zhangyang Wang, Yinfei Yang
Compressing LLMs: The Truth is Rarely Pure and Never Simple. CoRR (2023)
Chenglei Si, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang, Jordan L. Boyd-Graber, Lijuan Wang
Prompting GPT-3 To Be Reliable. ICLR (2023)
Yuhui Zhang, Brandon McKinzie, Zhe Gan, Vaishaal Shankar, Alexander Toshev
Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation. CoRR (2023)
Zhengfeng Lai, Haotian Zhang, Wentao Wu, Haoping Bai, Aleksei Timofeev, Xianzhi Du, Zhe Gan, Jiulong Shan, Chen-Nee Chuah, Yinfei Yang, Meng Cao
From Scarcity to Efficiency: Improving CLIP Training via Visual-enriched Captions. CoRR (2023)
Linjie Li, Zhe Gan, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Ce Liu, Lijuan Wang
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling. CVPR (2023)
Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang, Zicheng Liu
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling. CVPR (2023)
Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao
Multimodal Foundation Models: From Specialists to General-Purpose Assistants. CoRR (2023)
Yi-Lin Sung, Linjie Li, Kevin Lin, Zhe Gan, Mohit Bansal, Lijuan Wang
An Empirical Study of Multimodal Model Merging. CoRR (2023)
Jinghao Zhou, Li Dong, Zhe Gan, Lijuan Wang, Furu Wei
Non-Contrastive Learning Meets Language-Image Pre-Training. CVPR (2023)
Yuhui Zhang, Brandon McKinzie, Zhe Gan, Vaishaal Shankar, Alexander Toshev
Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation. ICBINB (2023)
Bingbing Wen, Zhengyuan Yang, Jianfeng Wang, Zhe Gan, Bill Howe, Lijuan Wang
InfoVisDial: An Informative Visual Dialogue Dataset by Bridging Large Multimodal and Language Models. CoRR (2023)
Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang
Ferret: Refer and Ground Anything Anywhere at Any Granularity. CoRR (2023)
Zi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan Wang, Chenguang Zhu, Pengchuan Zhang, Lu Yuan, Nanyun Peng, Zicheng Liu, Michael Zeng
An Empirical Study of Training End-to-End Vision-and-Language Transformers. CVPR (2022)
Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang, Zicheng Liu
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling. CoRR (2022)
Jinghao Zhou, Li Dong, Zhe Gan, Lijuan Wang, Furu Wei
Non-Contrastive Learning Meets Language-Image Pre-Training. CoRR (2022)
Jinghui Chen, Yu Cheng, Zhe Gan, Quanquan Gu, Jingjing Liu
Efficient Robust Training via Backward Smoothing. AAAI (2022)
Chenfei Wu, Jian Liang, Xiaowei Hu, Zhe Gan, Jianfeng Wang, Lijuan Wang, Zicheng Liu, Yuejian Fang, Nan Duan
NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis. CoRR (2022)
Zhe Gan, Yen-Chun Chen, Linjie Li, Tianlong Chen, Yu Cheng, Shuohang Wang, Jingjing Liu, Lijuan Wang, Zicheng Liu
Playing Lottery Tickets with Vision and Language. AAAI (2022)
Sheng Shen, Chunyuan Li, Xiaowei Hu, Yujia Xie, Jianwei Yang, Pengchuan Zhang, Anna Rohrbach, Zhe Gan, Lijuan Wang, Lu Yuan, Ce Liu, Kurt Keutzer, Trevor Darrell, Jianfeng Gao
K-LITE: Learning Transferable Visual Models with External Knowledge. CoRR (2022)
Zi-Yi Dou, Aishwarya Kamath, Zhe Gan, Pengchuan Zhang, Jianfeng Wang, Linjie Li, Zicheng Liu, Ce Liu, Yann LeCun, Nanyun Peng, Jianfeng Gao, Lijuan Wang
Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone. CoRR (2022)
Zi-Yi Dou, Aishwarya Kamath, Zhe Gan, Pengchuan Zhang, Jianfeng Wang, Linjie Li, Zicheng Liu, Ce Liu, Yann LeCun, Nanyun Peng, Jianfeng Gao, Lijuan Wang
Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone. NeurIPS (2022)
Zhengyuan Yang, Jianfeng Wang, Zhe Gan, Linjie Li, Kevin Lin, Chenfei Wu, Nan Duan, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wang
ReCo: Region-Controlled Text-to-Image Generation. CoRR (2022)
Zixin Zhu, Yixuan Wei, Jianfeng Wang, Zhe Gan, Zheng Zhang, Le Wang, Gang Hua, Lijuan Wang, Zicheng Liu, Han Hu
Exploring Discrete Diffusion Models for Image Captioning. CoRR (2022)
Jialian Wu, Jianfeng Wang, Zhengyuan Yang, Zhe Gan, Zicheng Liu, Junsong Yuan, Lijuan Wang
GRiT: A Generative Region-to-text Transformer for Object Understanding. CoRR (2022)
Zhiyuan Fang, Jianfeng Wang, Xiaowei Hu, Lin Liang, Zhe Gan, Lijuan Wang, Yezhou Yang, Zicheng Liu
Injecting Semantic Concepts into End-to-End Image Captioning. CVPR (2022)
Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Faisal Ahmed, Zicheng Liu, Yumao Lu, Lijuan Wang
UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling. ECCV (36) (2022)
Tianlong Chen, Yu Cheng, Zhe Gan, Jianfeng Wang, Lijuan Wang, Jingjing Liu, Zhangyang Wang
Adversarial Feature Augmentation and Normalization for Visual Recognition. Trans. Mach. Learn. Res. 2022 (2022)
Jian Liang, Chenfei Wu, Xiaowei Hu, Zhe Gan, Jianfeng Wang, Lijuan Wang, Zicheng Liu, Yuejian Fang, Nan Duan
NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis. NeurIPS (2022)
Chenglei Si, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang, Jordan L. Boyd-Graber, Lijuan Wang
Prompting GPT-3 To Be Reliable. CoRR (2022)
Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu, Lijuan Wang
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA. AAAI (2022)
Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang
GIT: A Generative Image-to-text Transformer for Vision and Language. Trans. Mach. Learn. Res. 2022 (2022)
Xueyan Zou, Zi-Yi Dou, Jianwei Yang, Zhe Gan, Linjie Li, Chunyuan Li, Xiyang Dai, Harkirat Behl, Jianfeng Wang, Lu Yuan, Nanyun Peng, Lijuan Wang, Yong Jae Lee, Jianfeng Gao
Generalized Decoding for Pixel, Image, and Language. CoRR (2022)
Sheng Shen, Chunyuan Li, Xiaowei Hu, Yujia Xie, Jianwei Yang, Pengchuan Zhang, Zhe Gan, Lijuan Wang, Lu Yuan, Ce Liu, Kurt Keutzer, Trevor Darrell, Anna Rohrbach, Jianfeng Gao
K-LITE: Learning Transferable Visual Models with External Knowledge. NeurIPS (2022)
Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang
GIT: A Generative Image-to-text Transformer for Vision and Language. CoRR (2022)
Xiaowei Hu, Zhe Gan, Jianfeng Wang, Zhengyuan Yang, Zicheng Liu, Yumao Lu, Lijuan Wang
Scaling Up Vision-Language Pretraining for Image Captioning. CVPR (2022)
Linjie Li, Zhe Gan, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Ce Liu, Lijuan Wang
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling. CoRR (2022)
Zhe Gan, Linjie Li, Chunyuan Li, Lijuan Wang, Zicheng Liu, Jianfeng Gao
Vision-Language Pre-Training: Basics, Recent Advances, and Future Trends. Found. Trends Comput. Graph. Vis. 14 (3-4) (2022)
Kevin Lin, Linjie Li, Chung-Ching Lin, Faisal Ahmed, Zhe Gan, Zicheng Liu, Yumao Lu, Lijuan Wang
SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning. CVPR (2022)
Zhe Gan, Linjie Li, Chunyuan Li, Lijuan Wang, Zicheng Liu, Jianfeng Gao
Vision-Language Pre-training: Basics, Recent Advances, and Future Trends. CoRR (2022)
Yuwei Fang, Shuohang Wang, Zhe Gan, Siqi Sun, Jingjing Liu
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding. AAAI (2021)
Boxin Wang, Shuohang Wang, Yu Cheng, Zhe Gan, Ruoxi Jia, Bo Li, Jingjing Liu
InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective. ICLR (2021)
Siyang Yuan, Pengyu Cheng, Ruiyi Zhang, Weituo Hao, Zhe Gan, Lawrence Carin
Improving Zero-Shot Voice Style Transfer via Disentangled Representation Learning. ICLR (2021)
Xiaohan Chen, Yu Cheng, Shuohang Wang, Zhe Gan, Jingjing Liu, Zhangyang Wang
The Elastic Lottery Ticket Hypothesis. CoRR (2021)
Junya Chen, Zhe Gan, Xuan Li, Qing Guo, Liqun Chen, Shuyang Gao, Tagyoung Chung, Yi Xu, Belinda Zeng, Wenlian Lu, Fan Li, Lawrence Carin, Chenyang Tao
Simpler, Faster, Stronger: Breaking The log-K Curse On Contrastive Learners With FlatNCE. CoRR (2021)
Linjie Li, Jie Lei, Zhe Gan, Jingjing Liu
Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA Models. ICCV (2021)
Xiaowei Hu, Zhe Gan, Jianfeng Wang, Zhengyuan Yang, Zicheng Liu, Yumao Lu, Lijuan Wang
Scaling Up Vision-Language Pre-training for Image Captioning. CoRR (2021)
Tianlong Chen, Yu Cheng, Zhe Gan, Jingjing Liu, Zhangyang Wang
Data-Efficient GAN Training Beyond (Just) Augmentations: A Lottery Ticket Perspective. NeurIPS (2021)
Zhe Gan, Yen-Chun Chen, Linjie Li, Tianlong Chen, Yu Cheng, Shuohang Wang, Jingjing Liu
Playing Lottery Tickets with Vision and Language. CoRR (2021)
Luowei Zhou, Jingjing Liu, Yu Cheng, Zhe Gan, Lei Zhang
CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning. CoRR (2021)
Siyang Yuan, Pengyu Cheng, Ruiyi Zhang, Weituo Hao, Zhe Gan, Lawrence Carin
Improving Zero-shot Voice Style Transfer via Disentangled Representation Learning. CoRR (2021)
Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang, Zicheng Liu
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling. CoRR (2021)
Jianfeng Wang, Xiaowei Hu, Zhe Gan, Zhengyuan Yang, Xiyang Dai, Zicheng Liu, Yumao Lu, Lijuan Wang
UFO: A UniFied TransfOrmer for Vision-Language Representation Learning. CoRR (2021)
Xiaohan Chen, Yu Cheng, Shuohang Wang, Zhe Gan, Zhangyang Wang, Jingjing Liu
EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets. CoRR (2021)
Yixin Nie, Linjie Li, Zhe Gan, Shuohang Wang, Chenguang Zhu, Michael Zeng, Zicheng Liu, Mohit Bansal, Lijuan Wang
MLP Architectures for Vision-and-Language Modeling: An Empirical Study. CoRR (2021)
Linjie Li, Jie Lei, Zhe Gan, Licheng Yu, Yen-Chun Chen, Rohit Pillai, Yu Cheng, Luowei Zhou, Xin Eric Wang, William Yang Wang, Tamara Lee Berg, Mohit Bansal, Jingjing Liu, Lijuan Wang, Zicheng Liu
VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation. CoRR (2021)
Kevin Lin, Linjie Li, Chung-Ching Lin, Faisal Ahmed, Zhe Gan, Zicheng Liu, Yumao Lu, Lijuan Wang
SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning. CoRR (2021)
Zi-Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan Wang, Chenguang Zhu, Pengchuan Zhang, Lu Yuan, Nanyun Peng, Zicheng Liu, Michael Zeng
An Empirical Study of Training End-to-End Vision-and-Language Transformers. CoRR (2021)
Tianlong Chen, Yu Cheng, Zhe Gan, Jianfeng Wang, Lijuan Wang, Zhangyang Wang, Jingjing Liu
Adversarial Feature Augmentation and Normalization for Visual Recognition. CoRR (2021)
Zhiyuan Fang, Jianfeng Wang, Xiaowei Hu, Lin Liang, Zhe Gan, Lijuan Wang, Yezhou Yang, Zicheng Liu
Injecting Semantic Concepts into End-to-End Image Captioning. CoRR (2021)
Linjie Li, Jie Lei, Zhe Gan, Jingjing Liu
Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA Models. CoRR (2021)
Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng, Jianfeng Gao, Ahmed Hassan Awadallah, Bo Li
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models. NeurIPS Datasets and Benchmarks (2021)
Wenhu Chen, Zhe Gan, Linjie Li, Yu Cheng, William Yang Wang, Jingjing Liu
Meta Module Network for Compositional Visual Reasoning. WACV (2021)
Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu
Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling. CVPR (2021)
Linjie Li, Jie Lei, Zhe Gan, Licheng Yu, Yen-Chun Chen, Rohit Pillai, Yu Cheng, Luowei Zhou, Xin Wang, William Yang Wang, Tamara L. Berg, Mohit Bansal, Jingjing Liu, Lijuan Wang, Zicheng Liu
VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation. NeurIPS Datasets and Benchmarks (2021)
Xiaohan Chen, Yu Cheng, Shuohang Wang, Zhe Gan, Jingjing Liu, Zhangyang Wang
The Elastic Lottery Ticket Hypothesis. NeurIPS (2021)
Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu, Lijuan Wang
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA. CoRR (2021)
Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng, Jianfeng Gao, Ahmed Hassan Awadallah, Bo Li
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models. CoRR (2021)
Tianlong Chen, Yu Cheng, Zhe Gan, Lu Yuan, Lei Zhang, Zhangyang Wang
Chasing Sparsity in Vision Transformers: An End-to-End Exploration. CoRR (2021)
Tianlong Chen, Yu Cheng, Zhe Gan, Jingjing Liu, Zhangyang Wang
Ultra-Data-Efficient GAN Training: Drawing A Lottery Ticket First, Then Training It Toughly. CoRR (2021)
Shuyang Dai, Zhe Gan, Yu Cheng, Chenyang Tao, Lawrence Carin, Jingjing Liu
APo-VAE: Text Generation in Hyperbolic Space. NAACL-HLT (2021)
Shuohang Wang, Luowei Zhou, Zhe Gan, Yen-Chun Chen, Yuwei Fang, Siqi Sun, Yu Cheng, Jingjing Liu
Cluster-Former: Clustering-based Sparse Transformer for Question Answering. ACL/IJCNLP (Findings) (2021)
Xiaohan Chen, Yu Cheng, Shuohang Wang, Zhe Gan, Zhangyang Wang, Jingjing Liu
EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets. ACL/IJCNLP (1) (2021)
Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu
Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling. CoRR (2021)
Tianlong Chen, Yu Cheng, Zhe Gan, Lu Yuan, Lei Zhang, Zhangyang Wang
Chasing Sparsity in Vision Transformers: An End-to-End Exploration. NeurIPS (2021)
Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Faisal Ahmed, Zicheng Liu, Yumao Lu, Lijuan Wang
Crossing the Format Boundary of Text and Boxes: Towards Unified Vision-Language Modeling. CoRR (2021)
Liqun Chen, Dong Wang, Zhe Gan, Jingjing Liu, Ricardo Henao, Lawrence Carin
Wasserstein Contrastive Representation Distillation. CVPR (2021)
Chen Zhu, Yu Cheng, Zhe Gan, Furong Huang, Jingjing Liu, Tom Goldstein
MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients. ECML/PKDD (3) (2021)
Liqun Chen, Zhe Gan, Yu Cheng, Linjie Li, Lawrence Carin, Jingjing Liu
Graph Optimal Transport for Cross-Domain Alignment. CoRR (2020)
Yi Wei, Zhe Gan, Wenbo Li, Siwei Lyu, Ming-Ching Chang, Lei Zhang, Jianfeng Gao, Pengchuan Zhang
MagGAN: High-Resolution Face Attribute Editing with Mask-Guided Generative Adversarial Network. ACCV (4) (2020)
Jiacheng Xu, Zhe Gan, Yu Cheng, Jingjing Liu
Discourse-Aware Neural Extractive Text Summarization. ACL (2020)
Zhe Gan, Yen-Chun Chen, Linjie Li, Chen Zhu, Yu Cheng, Jingjing Liu
Large-Scale Adversarial Training for Vision-and-Language Representation Learning. CoRR (2020)
Ruiyi Zhang, Changyou Chen, Zhe Gan, Zheng Wen, Wenlin Wang, Lawrence Carin
Nested-Wasserstein Self-Imitation Learning for Sequence Generation. AISTATS (2020)
Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, Jingjing Liu
UNITER: UNiversal Image-TExt Representation Learning. ECCV (30) (2020)

Zhe Gan.css-eqlu8i{font-size:small;padding-left:4px;}

Publication Activity (10 Years)

Top Topics

Top Venues

Zhe Gan