Nearly optimal policies in risk-sensitive positive dynamic programming on discrete spaces.

Rolando Cavazos-Cadena Raúl Montes-de-Oca

Published in: Math. Methods Oper. Res. (2000)

Keyphrases

risk sensitive
optimal policy
dynamic programming
markov decision processes
markov decision problems
optimal control
control policies
average cost
state space
infinite horizon
finite horizon
decision problems
finite state
reinforcement learning
long run
multistage
dynamic programming algorithms
average reward
policy iteration
markov decision process
reward function
linear program
initial state
decision processes
linear programming
partially observable
reinforcement learning algorithms
sufficient conditions
data mining