Human-Machine Coadaptation Based on Reinforcement Learning with Policy Gradients.

Karim A. Tahboub

Published in: ICSC (2019)

Keyphrases

human machine
reinforcement learning
optimal policy
policy search
action selection
markov decision process
spoken dialog systems
policy gradient
control policy
function approximators
human operators
reward function
human machine interaction
partially observable
function approximation
markov decision processes
action space
reinforcement learning algorithms
spoken dialogue systems
state space
temporal difference
partially observable markov decision processes
dynamic programming
multi agent
model free
learning algorithm
artificial neural networks
computer vision