Programmatic Reinforcement Learning without Oracles.

Wenjie Qiu He Zhu

Published in: ICLR (2022)

Keyphrases

reinforcement learning
function approximation
temporal difference
model free
state space
reinforcement learning algorithms
markov decision processes
machine learning
temporal difference learning
test cases
multi agent
direct policy search
active learning
policy search
learning algorithm
dynamic programming
genetic algorithm
relational reinforcement learning
stochastic approximation
data sets
control policy
control problems
information retrieval
optimal control
learning process
optimal policy
markov chain