In-context Exploration-Exploitation for Reinforcement Learning.

Zhenwen Dai Federico Tomasi Sina Ghiassian

Published in: ICLR (2024)

Keyphrases

reinforcement learning
exploration exploitation
active learning
bandit problems
learning algorithm
optimal solution
state space
contextual information
training set
learning process
supervised learning
markov decision processes
learning problems
function approximation