Distributed Policy Evaluation Under Multiple Behavior Strategies.

Sergio Valcarcel Macua Jianshu Chen Santiago Zazo Ali H. Sayed

Published in: CoRR (2013)

Keyphrases

policy evaluation
least squares
training data
linear programming
sufficient conditions
monte carlo
function approximation