Sleeping experts and bandits approach to constrained Markov decision processes.

Hyeong Soo Chang

Published in: Autom. (2016)

Keyphrases

markov decision processes
finite state
state space
optimal policy
reinforcement learning
dynamic programming
reachability analysis
policy iteration
finite horizon
reinforcement learning algorithms
model based reinforcement learning
factored mdps
markov decision process
decision theoretic planning
partially observable
transition matrices
planning under uncertainty
average cost
risk sensitive
decision processes
average reward
action sets
semi markov decision processes
action space
infinite horizon
policy evaluation
monte carlo