Fusion d'espaces de représentations multimodaux pour la reconnaissance du rôle du locuteur dans des documents télévisuels (Multimodal embedding fusion for robust speaker role recognition in video broadcast ).
Sebastien DelecrazFrédéric BéchetBenoît FavreMickael RouvierPublished in: JEP-TALN-RECITAL (1) (2016)
Keyphrases
- multimodal biometrics
- multimodal fusion
- multimedia
- audio visual
- human face recognition
- data fusion
- document analysis
- information fusion
- recognition rate
- face biometrics
- fusion method
- metadata
- partial occlusion
- human activities
- hyperspectral
- video data
- multimedia documents
- object recognition
- information retrieval
- image fusion
- video analysis
- activity recognition
- video shots
- noisy environments
- multi modal
- video sequences
- keywords
- automatic transcription