Fully asynchronous policy evaluation in distributed reinforcement learning over networks.

Xingyu Sha Jiaqi Zhang Keyou You Kaiqing Zhang Tamer Basar

Published in: Autom. (2022)

Keyphrases

policy evaluation
reinforcement learning
temporal difference
model free
least squares
function approximation
policy iteration
monte carlo
markov decision processes
td learning
multi agent
variance reduction
optimal policy
semi parametric
state space
learning algorithm
machine learning
reinforcement learning algorithms
statistical inference
action selection
np hard