SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding.

Haoxiang Wang Pavan Kumar Anasosalu Vasu Fartash Faghri Raviteja Vemulapalli Mehrdad Farajtabar Sachin Mehta Mohammad Rastegari Oncel Tuzel Hadi Pouransari

Published in: CoRR (2023)

Keyphrases