Limiting Extrapolation in Linear Approximate Value Iteration.

Andrea Zanette Alessandro Lazaric Mykel J. Kochenderfer Emma Brunskill

Published in: NeurIPS (2019)

Keyphrases

approximate value iteration
fixed point
temporal difference learning
reinforcement learning
pairwise
support vector
multi class
nearest neighbor
optimal policy
dynamical systems
positive and negative