Variance-constrained actor-critic algorithms for discounted and average reward MDPs.

Prashanth L. A.Mohammad Ghavamzadeh

Published in: Mach. Learn. (2016)

Keyphrases

average reward
markov decision processes
policy iteration
optimal policy
model free
actor critic
long run
reinforcement learning
semi markov decision processes
discounted reward
stochastic games
partially observable markov decision processes
markov chain
finite state
state and action spaces
learning algorithm
infinite horizon
markov decision process
computational complexity
rl algorithms
policy gradient
state space
fixed point
dynamic programming
state action
average cost
markov decision problems
approximate dynamic programming
search algorithm
least squares