Cautiously Optimistic Policy Optimization and Exploration with Linear Function Approximation.

Andrea Zanette Ching-An Cheng Alekh Agarwal

Published in: CoRR (2021)

Keyphrases

function approximation
function approximators
temporal difference learning algorithms
reinforcement learning
exploration exploitation tradeoff
action selection
reinforcement learning problems
model free
radial basis function
temporal difference
temporal difference learning
policy gradient
learning tasks
policy evaluation
reinforcement learning algorithms
temporal difference methods
optimal policy
policy search
policy iteration
actor critic
markov decision problems
learning experience
active learning
pattern recognition