Policy Gradient for Rectangular Robust Markov Decision Processes.

Navdeep Kumar Esther Derman Matthieu Geist Kfir Y. Levy Shie Mannor

Published in: NeurIPS (2023)

Keyphrases

markov decision processes
policy gradient
reinforcement learning algorithms
average reward
reinforcement learning
policy iteration
state space
actor critic
finite state
optimal policy
dynamic programming
infinite horizon
partially observable markov decision processes
action space
partially observable
reinforcement learning methods
average cost
markov decision process
reward function
computational complexity