Efficient Policy Iteration for Robust Markov Decision Processes via Regularization.

Navdeep Kumar Kfir Levy Kaixin Wang Shie Mannor

Published in: CoRR (2022)

Keyphrases

markov decision processes
policy iteration
optimal policy
finite state
transition matrices
average reward
state space
reinforcement learning
least squares
infinite horizon
model free
factored mdps
sample path
dynamic programming
policy evaluation
average cost
decision processes
reinforcement learning algorithms
planning under uncertainty
fixed point
finite horizon
partially observable
stochastic games
markov decision process
state and action spaces
linear programming
actor critic
hierarchical reinforcement learning
discounted reward
markov games