Online Regret Bounds for Markov Decision Processes with Deterministic Transitions.

Published in: ALT (2008)

Keyphrases

markov decision processes
regret bounds
online learning
state space
reinforcement learning
optimal policy
finite state
dynamic programming
transition matrices
policy iteration
infinite horizon
online convex optimization
stationary policies
decision theoretic planning
partially observable
action space
average reward
learning algorithm
markov decision process
linear regression
reward function
average cost
fixed point
least squares
computational complexity