Distributional Multivariate Policy Evaluation and Exploration with the Bellman GAN.

Dror Freirich Tzahi Shimkin Ron Meir Aviv Tamar

Published in: ICML (2019)

Keyphrases

policy evaluation
least squares
temporal difference
reinforcement learning
monte carlo
model free
markov decision processes
variance reduction
policy iteration
semi parametric
regression model
function approximation
action selection
linear program
linear regression
optical flow
optimal policy
confidence intervals
neural network