Markov decision processes with exponentially representable discounting.

Yair Carmon Adam Shwartz

Published in: Oper. Res. Lett. (2009)

Keyphrases

markov decision processes
state space
finite state
reinforcement learning
optimal policy
transition matrices
dynamic programming
reinforcement learning algorithms
policy iteration
markov decision process
risk sensitive
planning under uncertainty
infinite horizon
finite horizon
action space
decision processes
reachability analysis
factored mdps
average reward
model based reinforcement learning
decision theoretic planning
partially observable
state and action spaces
action sets
discounted reward
policy evaluation
probabilistic planning
average cost