Stochastic Bisimulation for MDPs Using Reachability Analysis.

Felipe Martins dos Santos Leliane Nunes de Barros Mijail Gamarra Holguin

Published in: BRACIS (2013)

Keyphrases

reachability analysis
markov decision processes
model checking
state space
timed automata
incremental algorithms
reinforcement learning
finite state
policy iteration
optimal policy
reinforcement learning algorithms
continuous state spaces
finite horizon
average reward
planning under uncertainty
partially observable
markov decision process
monte carlo
dynamic programming