Variance Penalized On-Policy and Off-Policy Actor-Critic.

Arushi Jain Gandharv Patil Ayush Jain Khimya Khetarpal Doina Precup

Published in: CoRR (2021)

Keyphrases

actor critic
policy gradient
reinforcement learning
variance reduction
approximate dynamic programming
optimal control
temporal difference
gradient method
policy iteration
neuro fuzzy
policy gradient methods
reinforcement learning algorithms
least squares
function approximation
average reward
monte carlo
state space
linear program
model free
fuzzy logic
sample size
markov decision process
partially observable markov decision processes
decision making
optimal policy
dynamic programming
reinforcement learning problems
natural actor critic