Adaptive and multiple time-scale eligibility traces for online deep reinforcement learning.

Taisuke Kobayashi

Published in: Robotics Auton. Syst. (2022)

Keyphrases

eligibility traces
reinforcement learning
reinforcement learning algorithms
markov decision processes
reinforcement learning methods
multi agent
dynamic programming
state space
machine learning
learning algorithm
optimal policy
adaptive control
learning process
linear programming
temporal difference
policy evaluation