Near-optimal Policy Identification in Active Reinforcement Learning.

Xiang Li Viraj Mehta Johannes Kirschner Ian Char Willie Neiswanger Jeff Schneider Andreas Krause Ilija Bogunovic

Published in: CoRR (2022)

Keyphrases

optimal policy
reinforcement learning
markov decision processes
state space
decision problems
finite horizon
dynamic programming
finite state
infinite horizon
multistage
state dependent
average reward
markov decision process
long run
function approximation
sufficient conditions
policy iteration
bayesian reinforcement learning
markov decision problems
partially observable markov decision processes
initial state
reinforcement learning algorithms
average cost
model free
partially observable
reward function
control policies
stochastic demand
dynamical systems
serial inventory systems