Multi-modal information retrieval from broadcast video using OCR and speech recognition.

Alexander G. Hauptmann Rong Jin Tobun D. Ng

Published in: JCDL (2002)

Keyphrases

multi modal
speech recognition
information retrieval
broadcast video
language model
handwriting recognition
hidden markov models
speech synthesis
automatic speech recognition
speech signal
pattern recognition
video search
speaker identification
character recognition
speech recognizer
audio visual
digital video
optical character recognition
speech recognition systems
text mining
image annotation
test collection
semantic concepts
text retrieval
language processing
document images