Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL.

Yang Yue Rui Lu Bingyi Kang Shiji Song Gao Huang

Published in: NeurIPS (2023)

Keyphrases

reinforcement learning
real time
function approximation
database
databases
genetic algorithm
artificial intelligence
decision making
markov decision processes
model free
future development
deeper understanding