Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning.

Qiwei Di Heyang Zhao Jiafan He Quanquan Gu

Published in: ICLR (2024)

Keyphrases

reinforcement learning
nonlinear least squares
markov decision processes
state space
least squares
optimal policy
policy iteration
trust region
markov decision process
levenberg marquardt
image registration
function approximation
dynamic programming
partially observable markov decision processes
model free
subpixel accuracy
neural network
temporal difference
optimization methods
back propagation
global optimum
bundle adjustment
image processing
learning algorithm