Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning.

Qiwei Di Heyang Zhao Jiafan He Quanquan Gu

Published in: CoRR (2023)

Keyphrases

reinforcement learning
nonlinear least squares
markov decision processes
least squares
state space
policy iteration
trust region
optimal policy
markov decision process
levenberg marquardt
image registration
dynamic programming
function approximation
partially observable markov decision processes
subpixel accuracy
global optimum
model free
machine learning
optimization methods
optical flow
learning algorithm
temporal difference
fixed point
maximum likelihood