Continuous MDP Homomorphisms and Homomorphic Policy Gradient.

Sahand Rezaei-Shoshtari Rosie Zhao Prakash Panangaden David Meger Doina Precup

Published in: CoRR (2022)

Keyphrases

policy gradient
reinforcement learning
average reward
markov decision processes
policy search
partially observable markov decision processes
reinforcement learning algorithms
actor critic
action space
state action
optimal policy
utility function
function approximation
model free reinforcement learning
finite state
state space
markov decision process
approximation methods
optimal control
gradient method
reward function
variance reduction
decision problems
linear program
search algorithm