Minimizing Expected Termination Time in One-Counter Markov Decision Processes

Tomás Brázdil Antonín Kucera Petr Novotný Dominik Wojtczak

Published in: CoRR (2012)

Keyphrases

markov decision processes
total reward
reinforcement learning
finite state
optimal policy
state space
transition matrices
stationary policies
policy iteration
dynamic programming
factored mdps
reachability analysis
planning under uncertainty
decision theoretic planning
finite horizon
average reward
decision processes
average cost
reinforcement learning algorithms
infinite horizon
action space
markov decision process
model based reinforcement learning
machine learning
risk sensitive
state and action spaces
action sets
continuous state spaces
interval estimation
partially observable