Multimodal Speech Recognition for Language-Guided Embodied Agents.

Allen Chang Xiaoyuan Zhu Aarav Monga Seoho Ahn Tejas Srinivasan Jesse Thomason

Published in: INTERSPEECH (2023)

Keyphrases

speech recognition
embodied agents
isolated word
hidden markov models
automatic speech recognition
pattern recognition
language model
speech synthesis
speech processing
speech signal
speech recognition systems
speech recognizer
language learning
speaker identification
virtual humans
multi modal
noisy environments
natural language
linguistic knowledge
english text
language processing
audio visual
virtual environment
speech recognition technology