One Policy is Enough: Parallel Exploration with a Single Policy is Near-Optimal for Reward-Free Reinforcement Learning.

Published in: AISTATS (2023)

Keyphrases