Learning CLIP Guided Visual-Text Fusion Transformer for Video-based Pedestrian Attribute Recognition.

Published in: CVPR Workshops (2023)

Keyphrases