Offline Reinforcement Learning With Behavior Value Regularization.

Longyang Huang Botao Dong Wei Xie Weidong Zhang

Published in: IEEE Trans. Cybern. (2024)

Keyphrases

reinforcement learning
function approximation
multi agent
real time
data sets
dynamic programming
optimal control
genetic algorithm
semi supervised
optimal policy
markov decision processes
human behavior
model free
temporal difference
parameter selection
behavior analysis