An Optimistic Approach to the Temporal Difference Error in Off-Policy Actor-Critic Algorithms.

Baturay Saglam Furkan B. Mutlu Suleyman S. Kozat

Published in: SSCI (2022)

Keyphrases

temporal difference
actor critic
function approximation
reinforcement learning
policy iteration
model free
td learning
evaluation function
learning algorithm
monte carlo
active learning
markov decision processes
learning problems
optimal control
action selection
reinforcement learning algorithms