RL$^2$: Fast Reinforcement Learning via Slow Reinforcement Learning.

Yan Duan John Schulman Xi Chen Peter L. Bartlett Ilya Sutskever Pieter Abbeel

Published in: CoRR (2016)

Keyphrases

reinforcement learning
function approximation
temporal difference
state space
markov decision processes
reinforcement learning algorithms
model free
optimal policy
multi agent
dynamic programming
direct policy search
control problems
temporal difference learning
markov decision process
continuous state
reinforcement learning methods
approximate dynamic programming
partially observable
optimal control
learning problems
rl algorithms
autonomous learning
policy search
action selection
machine learning
transfer learning
supervised learning
learning algorithm