Active Reinforcement Learning: Observing Rewards at a Cost.

David Krueger Jan Leike Owain Evans John Salvatier

Published in: CoRR (2020)

Keyphrases

reinforcement learning
markov decision processes
function approximation
learning algorithm
reinforcement learning algorithms
state space
model free
average cost
optimal policy
machine learning
transfer learning
dynamic programming
learning process
minimum cost
high cost
multi agent
robotic control
supply chain
optimal control
partially observable
data sets
control policy
multi agent reinforcement learning
bandit problems
reward shaping