Refined Regret for Adversarial MDPs with Linear Function Approximation.

Yan Dai Haipeng Luo Chen-Yu Wei Julian Zimmert

Published in: CoRR (2023)

Keyphrases

function approximation
reinforcement learning
temporal difference learning algorithms
function approximators
markov decision processes
reinforcement learning problems
temporal difference
policy evaluation
reward function
temporal difference learning
markov decision problems
multi agent
model free
learning tasks
state space
radial basis function
reinforcement learning algorithms
policy iteration
policy search
machine learning
policy gradient
markov decision process
sufficient conditions
linear programming