Trading Performance for Stability in Markov Decision Processes

Tomás Brázdil Krishnendu Chatterjee Vojtech Forejt Antonín Kucera

Published in: CoRR (2013)

Keyphrases

markov decision processes
finite state
state space
reinforcement learning
optimal policy
transition matrices
reinforcement learning algorithms
dynamic programming
average cost
reachability analysis
partially observable
decision theoretic planning
policy iteration
infinite horizon
action space
decision processes
finite horizon
risk sensitive
average reward
planning under uncertainty
markov decision process
factored mdps
action sets
model based reinforcement learning
reward function
multi agent
state abstraction
state and action spaces
semi markov decision processes