A Solution to Time-Varying Markov Decision Processes.

Lantao Liu Gaurav S. Sukhatme

Published in: IEEE Robotics Autom. Lett. (2018)

Keyphrases

markov decision processes
optimal policy
reinforcement learning
finite state
policy iteration
state space
reachability analysis
transition matrices
decision theoretic planning
average cost
dynamic programming
factored mdps
partially observable
infinite horizon
reinforcement learning algorithms
decision processes
average reward
markov decision process
planning under uncertainty
finite horizon
state and action spaces
machine learning
model checking
model based reinforcement learning
semi markov decision processes
optimal solution
action space
least squares
markov chain