Bottom-Up Meta-Policy Search.

Luckeciano Carvalho Melo Marcos Ricardo Omena Albuquerque Máximo Adilson Marques da Cunha

Published in: CoRR (2019)

Keyphrases

policy search
reinforcement learning
continuous state
reinforcement learning algorithms
continuous action
dynamic programming
markov decision processes
reward function
policy gradient
state space
monte carlo methods