Balancing Learning Speed and Stability in Policy Gradient via Adaptive Exploration.

Matteo Papini Andrea Battistello Marcello Restelli

Published in: AISTATS (2020)

Keyphrases

learning speed
policy gradient
feed forward neural networks
rbf network
actor critic
activation function
function approximation
neural network
feature extraction
reinforcement learning
back propagation
input output
feed forward
variance reduction