Reinforcement Learning with Unbiased Policy Evaluation and Linear Function Approximation.

Anna Winnicki R. Srikant

Published in: CDC (2022)

Keyphrases

function approximation
policy evaluation
reinforcement learning
temporal difference
function approximators
model free
td learning
temporal difference learning
temporal difference methods
policy iteration
least squares
learning tasks
radial basis function
reinforcement learning algorithms
state space
markov decision processes
monte carlo
optimal policy
neural network
semi parametric
dynamic programming
linear model
partially observable
partially observable markov decision processes
multi agent