Hierarchical Average Reward Policy Gradient Algorithms (Student Abstract).

Akshay Dharmavaram Matthew Riemer Shalabh Bhatnagar

Published in: AAAI (2020)

Keyphrases

policy gradient
average reward
gradient ascent
learning algorithm
long run
machine learning
computational complexity
least squares
markov decision processes