Exploration-exploitation trade-off for continuous-time episodic reinforcement learning with linear-convex models.

Published in: CoRR (2021)

Keyphrases