Tightening Exploration in Upper Confidence Reinforcement Learning.

Hippolyte Bourel Odalric-Ambrym Maillard Mohammad Sadegh Talebi

Published in: CoRR (2020)

Keyphrases

reinforcement learning
reactive planning
active exploration
exploration strategy
action selection
exploration exploitation
function approximation
model based reinforcement learning
exploration exploitation tradeoff
learning algorithm
markov decision processes
state space
temporal difference
autonomous learning
interactive exploration
machine learning
optimal policy
supervised learning
model free
policy search
active learning
image processing
learning problems
transition model
dynamic programming
pattern recognition
transfer learning