Online Markov Decision Processes Under Bandit Feedback.

Gergely Neu András György Csaba Szepesvári András Antos

Published in: IEEE Trans. Autom. Control. (2014)

Keyphrases

markov decision processes
state space
finite state
optimal policy
policy iteration
dynamic programming
transition matrices
reinforcement learning
reinforcement learning algorithms
reachability analysis
decision theoretic planning
markov chain
infinite horizon
online learning
model based reinforcement learning
planning under uncertainty
finite horizon
factored mdps
partially observable
reward function
average reward
risk sensitive
decision processes
state and action spaces
average cost
semi markov decision processes
action sets
action space
search space