Verifiable Planning in Expected Reward Multichain MDPs.

George K. Atia Andre Beckus Ismail Alkhouri Alvaro Velasquez

Published in: CoRR (2020)

Keyphrases

markov decision processes
expected reward
optimal policy
finite horizon
planning under uncertainty
average reward
partially observable
partially observable markov decision processes
state space
finite state
policy iteration
dynamic programming
reinforcement learning
planning problems
sufficient conditions
markov decision problems
average cost
heuristic search
long run
markov decision process
infinite horizon
linear program
initial state
domain independent
action space
decision processes
special case
machine learning