Policy Search with High-Dimensional Context Variables.

Voot Tangkaratt Herke van Hoof Simone Parisi Gerhard Neumann Jan Peters Masashi Sugiyama

Published in: CoRR (2016)

Keyphrases

high dimensional
policy search
reinforcement learning
objective function
feature space
random variables
continuous state