Efficient Bias-Span-Constrained Exploration-Exploitation in Reinforcement Learning.

Ronan Fruit Matteo Pirotta Alessandro Lazaric Ronald Ortner

Published in: ICML (2018)

Keyphrases

reinforcement learning
exploration exploitation
similarity measure
artificial intelligence
viewpoint
feature vectors
feature extraction
training data
support vector
pairwise
active learning
probability distribution
state space
optimal policy
bandit problems