Towards Painless Policy Optimization for Constrained MDPs.

Arushi Jain Sharan Vaswani Reza Babanezhad Csaba Szepesvári Doina Precup

Published in: CoRR (2022)

Keyphrases

optimal policy
markov decision processes
concave convex procedure
markov decision process
markov decision problems
finite horizon
partially observable
reinforcement learning problems
policy iteration
optimization algorithm
optimization process
optimization method
policy search
state space
reinforcement learning
average reward
dynamic programming
constrained optimization
state and action spaces
optimization problems
infinite horizon
global optimization
average cost
reward function
action space
saddle point
discounted reward
evolutionary algorithm