An Intermediate Fusion ViT Enables Efficient Text-Image Alignment in Diffusion Models.

Zizhao Hu Shaochong Jia Mohammad Rostami

Published in: CoRR (2024)

Keyphrases

image alignment
diffusion models
image registration
diffusion model
information diffusion
medical imaging
lucas kanade
active appearance models
social networks
viral marketing
greedy algorithm
influence maximization
x ray
multiscale
image processing
text mining
object recognition
training data