Variational Regret Bounds for Reinforcement Learning.

Ronald Ortner Pratik Gajane Peter Auer

Published in: UAI (2019)

Keyphrases

reinforcement learning
regret bounds
multi armed bandit
image segmentation
state space
optimal policy
linear regression
lower bound
online learning
markov decision processes
variational methods
machine learning
decision trees
bregman divergences