Speaker-invariant and rhythm-sensitive representation of spoken words.

Nobuaki Minematsu Yousuke Ozaki Keikichi Hirose Donna Erickson

Published in: APSIPA (2013)

Keyphrases

spoken words
automatic speech recognition
invariant representation
machine learning
multiscale
multi modal
image representation
translation invariant
image processing
affine invariant
invariant features