Policy Gradient using Weak Derivatives for Reinforcement Learning.

Sujay Bhatt Alec Koppel Vikram Krishnamurthy

Published in: CoRR (2020)

Keyphrases

policy gradient
reinforcement learning
actor critic
reinforcement learning algorithms
function approximation
policy search
optimal control
model free reinforcement learning
policy gradient methods
gradient method
state space
model free
average reward
reinforcement learning methods
approximation methods
temporal difference
state action
variance reduction
function approximators
partially observable markov decision processes
approximate dynamic programming
markov decision processes
monte carlo
control system
reinforcement learning problems
support vector
machine learning