Diverse Exploration via Conjugate Policies for Policy Gradient Methods.

Andrew Cohen Xingye Qiao Lei Yu Elliot Way Xiangrong Tong

Published in: CoRR (2019)

Keyphrases

policy gradient methods
natural actor critic
policy gradient
robot arm
monte carlo
reinforcement learning problems
actor critic
reinforcement learning
control system
optimal policy
approximation methods