Off-Policy Correction for Actor-Critic Algorithms in Deep Reinforcement Learning.

Baturay Saglam Dogan C. Cicek Furkan B. Mutlu Suleyman S. Kozat

Published in: CoRR (2022)

Keyphrases

reinforcement learning
actor critic
computational complexity
policy iteration
function approximation
approximate dynamic programming
learning algorithm
state space
fixed point
model free
temporal difference
policy gradient methods