Offline Multi-Policy Gradient for Latent Mixture Environments.

Xiaoguang Li Xin Zhang Lixin Wang Ge Yu

Published in: IEEE Access (2021)

Keyphrases

policy gradient
parametric optimization
latent variables
actor critic
neural network
dynamic environments
function approximation
gradient method
reinforcement learning
expectation maximization
optimal control