Variance-Penalized Markov Decision Processes.

Jerzy A. Filar Lodewijk C. M. Kallenberg Huey-Miin Lee

Published in: Math. Oper. Res. (1989)

Keyphrases

markov decision processes
finite state
state space
optimal policy
policy iteration
dynamic programming
least squares
decision processes
reinforcement learning
partially observable
finite horizon
transition matrices
decision theoretic planning
risk sensitive
planning under uncertainty
average cost
average reward
model based reinforcement learning
action space
reinforcement learning algorithms
factored mdps
markov decision process
loss function
variance reduction
reachability analysis
convergence rate
decision problems