A Version of the Euler Equation in Discounted Markov Decision Processes.

Hugo Cruz-Suárez Gabriel Zacarías-Espinoza Víctor Vázquez-Guevara

Published in: J. Appl. Math. (2012)

Keyphrases

markov decision processes
optimal policy
differential equations
state space
dynamic programming
finite state
reinforcement learning
infinite horizon
average reward
policy iteration
reinforcement learning algorithms
average cost
planning under uncertainty
transition matrices
finite horizon
decision processes
model based reinforcement learning
factored mdps
state and action spaces
action space
reachability analysis
decision problems
risk sensitive
multistage
discounted reward