Whisper to normal speech conversion using pitch estimated from spectrum.

Hideaki Konno Mineichi Kudo Hideyuki Imai Masanori Sugimoto

Published in: Speech Commun. (2016)

Keyphrases

formant frequencies
fundamental frequency
speech recognition
speech signal
acoustic features
data mining
automatic speech recognition
audio visual
real time
broadcast news
endpoint detection
data sets
multi stream
speech processing
machine learning
english text
speaker recognition
multi modal
spoken language
accurate estimation
dialogue system
database
pattern recognition
maximum likelihood
estimation error
signal to noise ratio