Policy set iteration for Markov decision processes.

Hyeong Soo Chang

Published in: Autom. (2013)

Keyphrases

markov decision processes
optimal policy
reinforcement learning
decision processes
average cost
policy iteration
infinite horizon
markov decision process
decision problems
finite state
state space
machine learning
dynamic programming
finite horizon
action space
partially observable
decision theoretic planning
transition matrices
utility function
discounted reward
state abstraction
risk sensitive
policy evaluation
average reward
objective function
multistage