Cautiously Optimistic Policy Optimization and Exploration with Linear Function Approximation.

Andrea Zanette Ching-An Cheng Alekh Agarwal

Published in: COLT (2021)

Keyphrases

function approximation
function approximators
temporal difference learning algorithms
exploration exploitation tradeoff
reinforcement learning
reinforcement learning problems
temporal difference
temporal difference learning
radial basis function
model free
policy gradient
learning tasks
action selection
actor critic
machine learning
policy evaluation
reinforcement learning algorithms
policy search
td learning
markov decision problems
artificial neural networks
kernel function