Imitation-Projected Programmatic Reinforcement Learning.

Abhinav Verma Hoang Minh Le Yisong Yue Swarat Chaudhuri

Published in: NeurIPS (2019)

Keyphrases

reinforcement learning
function approximation
state space
control problems
model free
structured light
optimal policy
learning algorithm
temporal difference
machine learning
optimal control
markov decision processes
supervised learning
temporal difference learning
reinforcement learning algorithms
database
dynamic programming
learning process
direct policy search
learning problems
imitation learning
relational reinforcement learning
robotic control
learned knowledge
robot control
evolutionary algorithm
decision making
data mining
real time