Distributed Off-Policy Temporal Difference Learning Using Primal-Dual Method.

Donghwan Lee Do Wan Kim Jianghai Hu

Published in: IEEE Access (2022)

Keyphrases

cost function
objective function
convergence rate
primal dual
support vector machine
convex optimization
temporal difference learning
computational complexity
pairwise
dynamic programming