Off-Policy Reinforcement Learning with Delayed Rewards.

Beining Han Zhizhou Ren Zuofan Wu Yuan Zhou Jian Peng

Published in: ICML (2022)

Keyphrases

reinforcement learning
function approximation
state space
markov decision processes
learning algorithm
reward function
model free
reinforcement learning algorithms
temporal difference
multi agent
policy search
transfer learning
dynamic programming
reward shaping
learning process
machine learning
multi agent reinforcement learning
reinforcement learning methods
direct policy search
learning problems
supervised learning
action selection
optimal control
learning capabilities
function approximators
control policy
optimal policy
evolutionary algorithm
genetic algorithm