Reachability in recursive Markov decision processes.

Tomás Brázdil Václav Brozek Vojtech Forejt Antonín Kucera

Published in: Inf. Comput. (2008)

Keyphrases

markov decision processes
state space
finite state
optimal policy
reinforcement learning
policy iteration
dynamic programming
transition matrices
partially observable
model based reinforcement learning
reinforcement learning algorithms
reachability analysis
heuristic search
factored mdps
decision theoretic planning
average cost
markov decision process
finite horizon
risk sensitive
average reward
planning under uncertainty
infinite horizon
dynamical systems
decision processes
discounted reward
reward function
action sets
total reward
action space