Policy Evaluation and Optimization with Continuous Treatments.

Nathan Kallus Angela Zhou

Published in: AISTATS (2018)

Keyphrases

policy evaluation
least squares
function approximation
optimization algorithm
monte carlo
temporal difference
evolutionary algorithm
probabilistic model
markov decision processes
multi agent
policy iteration