Zhixi Cai

Publication Activity (10 Years)

Years Active: 2022-2024
Publications (10 Years): 10

Top Topics

Human Interactions

Forgery Detection

Bdi Architecture

Top Venues

Comput. Vis. Image Underst.

Publications

Simindokht Jahangard, Zhixi Cai, Shiki Wen, Hamid Rezatofighi
JRDB-Social: A Multifaceted Robotic Dataset for Understanding of Context and Dynamics of Human Interactions Within Social Groups. CoRR (2024)
Fucai Ke, Zhixi Cai, Simindokht Jahangard, Weiqing Wang, Pari Delir Haghighi, Hamid Rezatofighi
HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning. CoRR (2024)
Shreya Ghosh, Zhixi Cai, Parul Gupta, Garima Sharma, Abhinav Dhall, Munawar Hayat, Tom Gedeon
Emolysis: A Multimodal Open-Source Group Emotion Analysis and Visualization Toolkit. CoRR (2023)
Zhixi Cai, Shreya Ghosh, Kalin Stefanov, Abhinav Dhall, Jianfei Cai, Hamid Rezatofighi, Reza Haffari, Munawar Hayat
MARLIN: Masked Autoencoder for facial video Representation LearnINg. CVPR (2023)
Shreya Ghosh, Rakibul Hasan, Pradyumna Agrawal, Zhixi Cai, Susannah Soon, Abhinav Dhall, Tom Gedeon
Pavlok-Nudge: A Feedback Mechanism for Atomic Behaviour Modification with Snoring Usecase. CoRR (2023)
Zhixi Cai, Shreya Ghosh, Abhinav Dhall, Tom Gedeon, Kalin Stefanov, Munawar Hayat
"Glitch in the Matrix!": A Large Scale Benchmark for Content Driven Audio-Visual Forgery Detection and Localization. CoRR (2023)
Zhixi Cai, Shreya Ghosh, Abhinav Dhall, Tom Gedeon, Kalin Stefanov, Munawar Hayat
: A large scale benchmark for content driven audio-visual forgery detection and localization. Comput. Vis. Image Underst. 236 (2023)
Zhixi Cai, Shreya Ghosh, Aman Pankaj Adatia, Munawar Hayat, Abhinav Dhall, Kalin Stefanov
AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset. CoRR (2023)
Zhixi Cai, Shreya Ghosh, Kalin Stefanov, Abhinav Dhall, Jianfei Cai, Hamid Rezatofighi, Reza Haffari, Munawar Hayat
MARLIN: Masked Autoencoder for facial video Representation LearnINg. CoRR (2022)
Zhixi Cai, Kalin Stefanov, Abhinav Dhall, Munawar Hayat
Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset and Multimodal Method for Temporal Forgery Localization. CoRR (2022)