Mean-Variance Tradeoffs in an Undiscounted MDP: The Unichain Case.

Published in: Oper. Res. (1994)

Keyphrases

finite state
markov decision processes
average cost
initial state
optimal policy
policy iteration
markov decision process
infinite horizon
stationary policies
utility function
state space
average reward
stochastic games
markov chain
reinforcement learning
markov decision problems
linear programming
planning under uncertainty
design decisions
fixed point
linear program
multistage
dynamic programming