Reinforcement Learning with Unbiased Policy Evaluation and Linear Function Approximation.

Anna Winnicki R. Srikant

Published in: CoRR (2022)

Keyphrases

function approximation
policy evaluation
reinforcement learning
temporal difference
function approximators
model free
td learning
temporal difference learning
temporal difference methods
state space
reinforcement learning algorithms
least squares
radial basis function
monte carlo
markov decision processes
optimal policy
policy iteration
transfer learning
learning tasks
evaluation function
semi parametric
learning algorithm
machine learning
neural network
optical flow
artificial neural networks
markov decision problems
policy gradient
multi agent