Augment-Reinforce-Merge Policy Gradient for Binary Stochastic Policy.

Yunhao Tang Mingzhang Yin Mingyuan Zhou

Published in: CoRR (2019)

Keyphrases

policy gradient
model free reinforcement learning
reinforcement learning
actor critic
function approximation
policy search
gradient method
optimal control
policy gradient methods
reinforcement learning algorithms
approximation methods
single agent
variance reduction
state space
state action
multi agent systems
learning automata
model free
dynamic programming
machine learning