DiffCPS: Diffusion Model based Constrained Policy Search for Offline Reinforcement Learning.

Longxiang He Linrui Zhang Junbo Tan Xueqian Wang

Published in: CoRR (2023)

Keyphrases

policy search
reinforcement learning
model free
reinforcement learning algorithms
continuous state
dynamic programming
continuous action
function approximation
temporal difference
optimal policy
state space
markov decision problems
policy gradient
markov decision processes
partially observable markov decision processes
reward function
policy iteration
function approximators
control policies
multi agent
learning algorithm