Offline Stochastic Shortest Path: Learning, Evaluation and Towards Optimality.

Ming Yin Wenjing Chen Mengdi Wang Yu-Xiang Wang

Published in: CoRR (2022)

Keyphrases

reinforcement learning
learning process
lower bound
active learning
supervised learning
markov chain
learning tasks