Simulation Based Algorithms for Markov Decision Processes and Multi-Action Restless Bandits.

Rahul Meshram Kesav Kaza

Published in: CoRR (2020)

Keyphrases

markov decision processes
policy iteration
decision theoretic planning
finite state
reinforcement learning
factored mdps
state space
reachability analysis
dynamic programming
optimal policy
action space
stochastic shortest path
learning algorithm
action sets
continuous state spaces
risk sensitive
incremental algorithms
discounted reward
average reward
transition matrices
convergence rate