Trading Performance for Stability in Markov Decision Processes.

Tomás Brázdil Krishnendu Chatterjee Vojtech Forejt Antonín Kucera

Published in: LICS (2013)

Keyphrases

markov decision processes
finite state
transition matrices
optimal policy
state space
policy iteration
dynamic programming
reinforcement learning
reachability analysis
decision theoretic planning
finite horizon
reinforcement learning algorithms
action sets
average cost
partially observable
infinite horizon
risk sensitive
markov decision process
planning under uncertainty
model based reinforcement learning
action space
decision processes
average reward
monte carlo
factored mdps
state and action spaces