Implicitly Regularized RL with Implicit Q-values.

Nino Vieillard Marcin Andrychowicz Anton Raichuk Olivier Pietquin Matthieu Geist

Published in: AISTATS (2022)

Keyphrases

reinforcement learning
least squares
optimal policy
markov decision processes
model free
data sets
genetic algorithm
learning algorithm
user defined
parameter values