Localizing Policy Gradient Estimates to Action Transition.

Gregory Z. Grudic Lyle H. Ungar

Published in: ICML (2000)

Keyphrases

policy gradient
state action
parametric optimization
reinforcement learning
gradient method
actor critic
state transitions
policy search
function approximation
optimal control
state transition
approximation methods
variance reduction
mobile robot
confidence intervals
control system
multi agent systems