AlgaeDICE: Policy Gradient from Arbitrary Experience.

Ofir Nachum Bo Dai Ilya Kostrikov Yinlam Chow Lihong Li Dale Schuurmans

Published in: CoRR (2019)

Keyphrases

policy gradient
parametric optimization
reinforcement learning
actor critic
optimal control
gradient method
function approximation
state action
variance reduction
neural network
control system
dynamic programming
reinforcement learning algorithms
approximation methods
model free reinforcement learning