PAC-Bayesian Policy Evaluation for Reinforcement Learning.

Mahdi Milani Fard Joelle Pineau Csaba Szepesvári

Published in: UAI (2011)

Keyphrases

policy evaluation
pac bayesian
reinforcement learning
temporal difference
least squares
model free
function approximation
distribution free
policy iteration
monte carlo
markov decision processes
reinforcement learning algorithms
optimal policy
variance reduction
generalization bounds
dynamic programming
semi parametric
machine learning
learning algorithm
optimal control
state space
action selection
markov decision process