Model-Free Imitation Learning with Policy Optimization.

Jonathan Ho Jayesh K. Gupta Stefano Ermon

Published in: ICML (2016)

Keyphrases

model free
imitation learning
reinforcement learning
policy iteration
reinforcement learning methods
policy evaluation
reinforcement learning algorithms
average reward
optimal policy
temporal difference
function approximation
action selection
maximum margin
reward function
partially observable markov decision processes
markov decision process
state space
infinite horizon
robotic systems
transfer learning
control system