MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation.

Ruibo Fu Shuchen Shi Hongming Guo Tao Wang Chunyu Qiang Zhengqi Wen Jianhua Tao Xin Qi Yi Lu Xiaopeng Wang Zhiyong Wang Yukun Liu Xuefei Liu Shuai Zhang Guanjun Li

Published in: CoRR (2024)