Reachability in Recursive Markov Decision Processes.

Tomás Brázdil Václav Brozek Vojtech Forejt Antonín Kucera

Published in: CONCUR (2006)

Keyphrases

markov decision processes
state space
finite state
optimal policy
reinforcement learning
decision theoretic planning
transition matrices
dynamic programming
heuristic search
reinforcement learning algorithms
policy iteration
partially observable
reachability analysis
planning under uncertainty
markov chain
infinite horizon
finite horizon
decision processes
factored mdps
action sets
search space
action space
reward function
state abstraction
model based reinforcement learning
dynamical systems
interval estimation