Fast Model-based Policy Search for Universal Policy Networks.

Buddhika Laknath Semage Thommen George Karimpanal Santu Rana Svetha Venkatesh

Published in: CoRR (2022)

Keyphrases

policy search
reinforcement learning
continuous state
policy gradient
dynamic programming
reinforcement learning algorithms
reward function
partially observable markov decision processes
markov decision problems
model free
neural network
optimal policy
markov decision processes
function approximators