Swapped goal-conditioned offline reinforcement learning.

Wenyan Yang Huiling Wang Dingding Cai Joni Pajarinen Joni-Kristian Kämäräinen

Published in: CoRR (2023)

Keyphrases

reinforcement learning
function approximation
learning algorithm
learning process
optimal policy
markov decision processes
action selection
temporal difference learning
bayesian networks
reinforcement learning algorithms
multi agent reinforcement learning