Episodic Policy Gradient Training.

Hung Le Majid Abdolshah Thommen K. George Kien Do Dung Nguyen Svetha Venkatesh

Published in: CoRR (2021)

Keyphrases

policy gradient
parametric optimization
reinforcement learning
neural network
multi agent
training samples
gradient method
actor critic