An Adaptive Policy Evaluation Network Based on Recursive Least Squares Temporal Difference With Gradient Correction.

Published in: IEEE Access (2018)

Keyphrases