Model-Free Imitation Learning with Policy Optimization.

Jonathan Ho Jayesh K. Gupta Stefano Ermon

Published in: CoRR (2016)

Keyphrases

model free
imitation learning
reinforcement learning
policy iteration
policy evaluation
reinforcement learning methods
optimal policy
reinforcement learning algorithms
function approximation
average reward
temporal difference
markov decision processes
action selection
markov decision process
humanoid robot
partially observable markov decision processes
state space
function approximators
infinite horizon
relational data
feature selection