Online Markov Decision Processes under Bandit Feedback.

Gergely Neu András György Csaba Szepesvári András Antos

Published in: NIPS (2010)

Keyphrases

markov decision processes
state space
reinforcement learning
policy iteration
optimal policy
dynamic programming
finite state
transition matrices
reachability analysis
state and action spaces
partially observable
online learning
decision theoretic planning
action space
finite horizon
markov decision process
average reward
planning under uncertainty
average cost
reinforcement learning algorithms
infinite horizon
model based reinforcement learning
decision processes
risk sensitive
action sets
data mining
real valued
interval estimation