Policy Gradient from Demonstration and Curiosity.

Jie Chen Wenjun Xu

Published in: CoRR (2020)

Keyphrases

policy gradient
reinforcement learning
parametric optimization
function approximation
actor critic
model free reinforcement learning
optimal control
gradient method
reinforcement learning algorithms
average reward
variance reduction
partially observable markov decision processes
neural network
temporal difference
convergence rate
domain independent
control system