Reward-Consistent Dynamics Models are Strongly Generalizable for Offline Reinforcement Learning.

Fan-Ming Luo Tian Xu Xingchen Cao Yang Yu

Published in: ICLR (2024)

Keyphrases

reinforcement learning
probabilistic model
optimal policy
dynamical systems
model free
decision trees
learning process
parameter estimation
cellular automata
experimental data
dynamic model
function approximation
agent based simulations