Tightening Exploration in Upper Confidence Reinforcement Learning.

Hippolyte Bourel Odalric Maillard Mohammad Sadegh Talebi

Published in: ICML (2020)

Keyphrases

reinforcement learning
reactive planning
active exploration
exploration strategy
action selection
exploration exploitation
function approximation
model based reinforcement learning
autonomous learning
markov decision processes
reinforcement learning algorithms
temporal difference
model free
state space
dynamic programming
multi agent
control structure
exploration exploitation tradeoff
multi agent reinforcement learning
machine learning
optimal control
learning problems
transfer learning
learning algorithm
policy search
optimal policy
robotic control
parameter estimation
visual features