Refined Regret for Adversarial MDPs with Linear Function Approximation.

Yan Dai Haipeng Luo Chen-Yu Wei Julian Zimmert

Published in: ICML (2023)

Keyphrases

function approximation
reinforcement learning
temporal difference learning algorithms
function approximators
markov decision processes
temporal difference
policy evaluation
temporal difference learning
reward function
reinforcement learning problems
reinforcement learning algorithms
multi agent
learning tasks
model free
state space
radial basis function
optimal policy
markov decision problems
policy search
policy iteration
optimal control
dynamic programming
pattern recognition
partially observable
support vector
average reward