A policy iteration algorithm for Markov decision processes skip-free in one direction.

Joke Lambert Benny Van Houdt Chris Blondia

Published in: VALUETOOLS (2007)

Keyphrases

markov decision processes
policy iteration algorithm
policy iteration
finite state
state space
reinforcement learning
dynamic programming
optimal policy
transition matrices
average reward
decision processes
planning under uncertainty
partially observable
infinite horizon
average cost
markov decision process
model free
partially observable markov decision processes
evaluation function
stochastic games
markov decision problems
actor critic