Doubly Robust Off-Policy Actor-Critic Algorithms for Reinforcement Learning.

Riashat Islam Raihan Seraj Samin Yeasar Arnob Doina Precup

Published in: CoRR (2019)

Keyphrases

reinforcement learning
actor critic
learning algorithm
policy iteration
function approximation
model free
machine learning algorithms
markov decision processes
optimal control
computational complexity
evaluation function
temporal difference
approximate dynamic programming
policy gradient methods