PAC-Bayesian Policy Evaluation for Reinforcement Learning

Mahdi Milani Fard Joelle Pineau Csaba Szepesvári

Published in: CoRR (2012)

Keyphrases

policy evaluation
pac bayesian
reinforcement learning
temporal difference
least squares
model free
distribution free
function approximation
monte carlo
policy iteration
markov decision processes
reinforcement learning algorithms
variance reduction
optimal policy
state space
semi parametric
dynamic programming
generalization bounds
learning algorithm
machine learning
partially observable markov decision processes
learning problems
sufficient conditions
optimal control
evaluation function
supervised learning
probabilistic model