Provable Benefits of Actor-Critic Methods for Offline Reinforcement Learning.

Andrea Zanette Martin J. Wainwright Emma Brunskill

Published in: NeurIPS (2021)

Keyphrases

reinforcement learning
actor critic
dynamic programming
function approximation
semi supervised
linear programming
optimal control
temporal difference