Off-Policy Actor-Critic with Emphatic Weightings.

Eric Graves Ehsan Imani Raksha Kumaraswamy Martha White

Published in: CoRR (2021)

Keyphrases

actor critic
reinforcement learning
optimal control
policy gradient
approximate dynamic programming
temporal difference
neuro fuzzy
gradient method
reinforcement learning algorithms
policy iteration
function approximation
linear program
step size
learning algorithm
recursive least squares
dynamic programming
evaluation function
convergence rate
partially observable markov decision processes
markov decision processes
approximation methods
average reward
dynamical systems
linear programming
least squares
objective function