Efficient Bias-Span-Constrained Exploration-Exploitation in Reinforcement Learning.

Ronan Fruit Matteo Pirotta Alessandro Lazaric Ronald Ortner

Published in: CoRR (2018)

Keyphrases

reinforcement learning
exploration exploitation
active learning
state space
machine learning
learning algorithm
dynamic programming
optimal policy