Directed Exploration in PAC Model-Free Reinforcement Learning.

Min-hwan Oh Garud Iyengar

Published in: CoRR (2018)

Keyphrases

model free reinforcement learning
sample size
reinforcement learning
dynamic programming
np hard
upper bound
policy gradient