Continuous MDP Homomorphisms and Homomorphic Policy Gradient.

Sahand Rezaei-Shoshtari Rosie Zhao Prakash Panangaden David Meger Doina Precup

Published in: NeurIPS (2022)

Keyphrases

policy gradient
reinforcement learning
markov decision processes
average reward
policy search
reinforcement learning algorithms
markov decision process
action space
function approximation
actor critic
partially observable markov decision processes
state action
optimal policy
reward function
state space
linear program
approximation methods
utility function
gradient method
optimal control
finite state
linear programming